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深度 强化 学 习 结 合 深 度 学 习 与 强化 学 习 算 法 各 自 的 优势 解决 复杂 的 决策 任务 。 得 益 于 DeepMind Al- 
phaGo 和 OpenAI Five 成 功 的 案例 ， 深 度 强化 学 习 受 到 大 量 的 关注 ， 相 关 技 术 广泛 应 用 于 不 同 的 领域 。 
本 书 分 为 三 大 部 分 , 覆盖 深度 强化 学 习 的 全 部 内 容 。 第 一 部 分 介绍 深度 学 习 和 强化 学 习 的 入 门 知 识 、 一 




































































些 非常 基础 的 深度 强化 学 习 算 法 及 其 实现 细节 ， 包 括 第 1 一 6 章 。 第 二 部 分 是 一 些 精 选 的 深 
题目 ， 这 些 内 容 对 准备 开展 深度 强化 学 习 研 究 的 读者 非常 有 用 ， 包 括 第 7 一 12 章 。 第 三 部 
应 用 案例 ， 包 括 AlphaZero、 让 机 器 人 学 习 跑 步 等 ， 包 括 第 13—17 章 。 























































































































度 强 化 学 习 研 究 
分 提供 了 丰富 的 



























































本 书 是 为 计算 机 科学 专业 背景 、 希 望 从 零 开 始 学 习 深 度 强化 学 习 并 开展 研究 课题 和 人 
































践 项 目的 学 生 准 



























































到 具体 产品 中 的 











备 的 。 本 书 也 适合 没有 很 强 的 机 器 学 习 背 景 、 但 是 希望 快速 学 习 深 度 强化 学 习 并 将 其 应 用 
软件 工程 师 阅 读 。 




















未 经 许可 ， 不 得 以 任何 方式 复制 或 抄袭 本 书 之 部 分 或 全 部 内 容 。 
版 权 所 有 ， 侵 权 必 究 。 
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长 ， 英 国 星 家 工程 院 院 士 ， 欧 洲 科 学 院 院 士 ) 























郭 毅 可 《香港 浸 会 大 学 副 校 长 、 教 授 ， 帝 国 理工 学 院 教授 ， 














数据 科学 研究 所 所 





我 对 这 本 书 覆 盖 内 容 的 范围 之 广 印象 深刻 。 从 深度 强化 学 习 的 基础 理论 知识 ， 
到 包含 代码 细节 的 技术 实现 描述 ， 作 者 们 花 了 大 量 的 精力 致力 于 提供 综合 且 
广泛 的 内 容 。 这 样 的 书籍 是 初学 者 和 科研 人 员 非 常 好 的 学 习 材 料 。 拥 抱 开源 
社区 是 深度 学 习 得 到 快速 发 展 不 可 或 缺 的 一 个 原因 。 我 很 欣慰 这 本 书 提供 了 























大 量 的 开源 代码 。 我 也 相信 这 本 书 将 会 对 那些 希望 深入 这 个 领域 的 研究 人 员 非 常 有 用 ， 也 对 那些 





希望 通过 开源 例子 快速 上 手 的 工程 师 提 供 良 好 的 基础 。 























陈 宝 权 (北京 大 学 教授 ， 前 沿 计算 研究 中 心 执行 主任 ，IEEE Fellow) 
本 书 提供 的 深度 强化 学 习 内 容 非常 可 靠 ， 缩 小 了 基础 理论 和 实践 之 间 的 差距 ， 
以 提供 详细 的 描述 、 算 法 实现 、 大 量 技巧 和 速 查 表 为 特色 。 


本 书 作 者 均 是 研究 


















































金 驰 〈 普 林 斯 顿 大 学 助理 教授 ) 








强化 学 习 的 知名 大 学 研究 者 和 将 技术 用 在 各 类 应 用 中 的 开源 社区 实践 者 。 这 
本 书 为 不 同 背 景 和 阅读 目的 的 读者 提供 了 非常 有 用 的 资源 。 





| 这 是 一 本 在 深度 强化 学 习 这 个 重要 领域 出 版 得 非常 及 时 的 书 。 本 书 以 一 种 简 






































明 清 晰 的 风格 提供 了 详尽 的 工具 , 包括 深度 强化 学 习 的 基础 和 重要 算法 、 具 体 
实现 细节 和 前 瞻 的 研究 方向 。 对 任何 愿意 学 习 深 度 强 化 学 习 、 将 深度 强化 学 

















习 算 法 运用 到 茶 些 应 用 上 或 开始 进行 深度 强化 学 习 基 础 
书 都 是 理想 的 学 习 材 料 。 




















究 的 人 来 说 ， 这 本 
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李 克 之 《伦敦 大 学 学 院 助理 教授 ) 

这 本 书 是 为 强化 学 习 、 特 别 是 深度 强化 学 习 的 忠实 粉丝 提供 的 。 从 2013 年 开 
台 ， 深 度 强化 学 习 已 经 渐渐 地 以 多 种 方式 改变 了 我 们 的 生活 和 世界 ， 比 如 会 下 
棋 的 AlphaGo 技术 展示 了 超过 专业 选手 的 理解 能 力 的 “围棋 之 美 ”。 类 似 的 情 
况 也 会 发 生 在 技术 、 医 疗 和 金融 领域 。 深度 强化 学 习 探索 了 一 个 人 类 最 基本 的 
问题 : 人 类 是 如 何 通 过 与 环境 交互 进行 学 习 的 ? 这 个 机 制 可 能 成 为 逃 出 “大 数 
据 陷 阱 ”的 关键 因素 ， 作 为 一 条 强人 工 智能 的 必 经 之 路 ， 通 向 人 类 智慧 尚未 企及 的 地 方 。 本 书 由 
一 群 对 机 器 学 习 充满 热情 的 年 轻 研究 人 员 编著 ， 它 将 向 你 展示 深度 强化 学 习 的 世界 ， 通 过 实例 和 
经 验 介绍 加 深 你 对 深度 强化 学 习 的 理解 。 向 所 有 想 把 未 来 智慧 之 是 揣 进口 袋 的 学 习 者 推荐 此 书 。 
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ll 
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为 什么 写作 本 书 


人 工 智 能 已 经 成 为 当今 信息 技术 发 展 的 主要 方向 ， 国 务 院 印发 的 《新 一 代 人 工 智能 发 展 规 
划 》 中 指出 : 2020 年 我 国人 工 智 能 核心 产业 规模 超过 1500 亿 元 ， 带 动 相关 产业 规模 超过 1 万 亿 
Jù; 2030 年 人 工 智 能 核心 产业 规模 超过 1 万 亿 元 ， 带 动 相关 产业 规模 超过 10 万 亿 元 。 深 度 强化 
学 习 将 结合 深度 学 习 与 强化 学 习 算法 各 自 的 优势 来 解决 复杂 的 决策 任务 。 

近年 来 ， 归 功 于 DeepMind AlphaGo 和 OpenAI Five 这 类 成 功 的 案例 ， 深 度 强化 学 习 受到 大 
量 的 关注 ， 相 关 技 术 广泛 用 于 金融 、 医 疗 、 军 事 、 能 源 等 领域 。 为 此 ， 学 术 界 和 产业 界 急需 大 量 
人 才 ， 而 深度 强化 学 习作 为 人 工 智能 中 的 智能 决策 部 分 ， 是 理论 与 工程 相 结 合 的 重要 研究 方向 。 
本 书 将 以 通俗 易 懂 的 方式 讲解 相关 技术 ， 并 辅 以 实践 教学 。 


本 书 主要 内 容 


本 书 分 为 三 大 部 分 ， 以 尽 可 能 覆盖 深度 强化 学 习 所 需要 的 全 部 内 容 。 

第 一 部 分 介绍 深度 学 习 和 强化 学 习 的 入 门 知 识 、 一 些 非常 基础 的 深度 强化 学 习 算法 及 其 实现 
细节 ， 请 见 第 1~6 35. 

第 二 部 分 是 一 些 精 选 的 深度 强化 学 习 研 究 题目 ， 请 见 第 7 一 12 章 ， 这 些 内 容 对 准备 开展 深度 
强化 学 习 研 究 的 读者 非常 有 用 。 

为 了 帮助 读者 更 深入 地 学 习 深 度 强化 学 习 ， 并 把 相关 技术 用 于 实践 ， 本 书 第 三 部 分 提供 了 让 
富 的 例子 ， 包 括 AlphaZero、 让 机 器 人 学 习 跑 步 等 ， 请 见 第 13~17 章 。 


















































































































































































































































如 何 阅 读本 书 


本 书 是 为 计算 机 科学 专业 背景 、 希望 从 零 学 习 深 度 强化 学 习 并 开展 研究 课题 和 实践 项 目的 学 
生 准 备 的 。 本 书 也 适用 于 没有 很 强 机 器 学 习 背景 、 但 是 希望 快速 学 习 深度 强化 学 习 并 把 它 应 用 到 
具体 产品 中 的 软件 工程 师 。 
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鉴于 不 同 的 读者 情况 会 有 所 差异 〈 比 如 ， 有 的 读者 可 能 是 第 一 次 接触 深度 学 习 ， 而 有 的 读者 
可 能 已 经 对 深度 学 习 有 一 定 的 了 解 ， 有 的 读者 已 经 有 一 些 强化 学 习 基 础 ， 有 的 读者 只 是 想 了 解 强 
化 学 习 的 概念 ， 而 有 的 读者 是 准备 长 期 从 事 深度 强化 学 习 研 究 的 )， 这 里 根据 不 同 的 读者 情况 给 
予 不 同 的 阅读 建议 。 
l. 要 了 解 深度 强化 学 习 。 
第 1—6 章 履 盖 了 深度 强化 学 习 的 基础 知识 ， 其 中 第 2 章 是 最 关键 、 最 基础 的 内 容 。 如 果 您 
已 经 有 深度 学 习 基 础 ， 可 以 直接 跳 过 第 1 章 。 第 3 章 、 附 录 A 和 附录 B 总 结 了 不 同 的 算法 。 
2. 要 从 事 深度 强化 学 习 研 究 。 
除了 深度 学 习 的 基础 内 容 ， 第 7 章 介绍 了 当今 强化 学 习 技 术 发 展 遇 到 的 各 种 挑战 。 您 可 以 
通过 阅读 第 8 一 12 章 来 进一步 了 解 不 同 的 研究 方向 。 
3. 要 在 产品 中 使 用 深度 强化 学 习 。 
如 果 您 是 工程 师 ， 希 望 快速 地 在 产品 中 使 用 深度 强化 学 习 技 术 ， 第 13 一 17 章 是 您 关注 的 重 
点 。 您 可 以 根据 业务 场景 中 的 动作 空间 和 观测 种 类 来 选择 最 相似 的 应 用 例子 ， 然 后 运用 到 
您 的 业务 中 。 
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关于 本 书 作者 











本 书 编著 方式 与 其 他 同类 书籍 不 同 ， 是 由 人 工 智 能 开源 社区 发 起 的 ， 我 们 非常 感谢 Tensor- 
Layer 中 文 社 区 的 支持 。 最 重要 的 是 感谢 家 人 对 我 们 工作 的 支持 和 强大 的 祖国 对 人 工 智能 产业 的 
重视 。 下 表 列 出 了 所 有 章节 的 作者 。 

























































































































































































































































































各 章节 作者 列表 

章节 标题 作者 

- 前 言 EX 

- 数学 符号 FKA 

x 序言 AXE. OUI 

- 基础 部 分 HE 

1 深度 学 习 入 门 TAI. Sei. BTC. HES 
2 强化 学 习 入 门 TF. BEEP. XU. BES. VINA 
3 强化 学 习 算法 分 类 张 鸿 馈 、 余 天 洋 

a 深度 Q 网 络 BER, RR 

5 策略 梯度 仍 尚 航 、 黄 锐 桐 、 余 天 洋 、 丁 子 涵 
6 深度 Q 网 络 和 Actor-Critic 的 结合 张 鸿 馈 、 余 天 洋 、 黄 锐 柚 

= 研究 部 分 RR 

7 深度 强化 学 习 的 挑战 JW. Be 

8 模仿 学 习 丁子 涵 

9 集成 学 习 和 规划 张 华 清 、 黄 锐 桐 、 仇 尚 航 

10 分 层 强 化 学 习 BEEP. Lint. RAE 

11 多 智能 体 强 化 学 习 TRA. OU 

12 并 行 计 算 张 华 清 、 余 天 洋 

一 应 用 部 分 mae. TOT 

13 Learning to Run 丁子 涵 、 董 豪 
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关于 本 书 作者 














































































































各 章节 作者 列表 ( 续 表 ) 
章节 标题 作者 
14 鲁 棒 的 图 像 增强 HEE, MÁI RAE 
15 AlphaZero 张 鸿 铭 、 余 天 洋 
16 模拟 环境 中 机 器 人 学 习 TTR. Be 
17 Arena: 多 智能 体 强化 学 习 平 台 丁子 涵 
18 深度 强化 学 习 应 用 实践 技巧 Jiu. EXE 
- 总 结 部 分 董 豪 
- 算法 总 结 表 丁子 涵 
- 算法 速 查 表 丁子 涵 
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秋 获 得 英国 帝国 理 














3 "e bx fe 











研究 方向 主要 涉及 计算 机 视觉 
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智能 系统 所 需要 的 数据 。 致 力 E 
此 框架 获得 ACM MM 2017 年 | 
一 等 研究 生 和 一 等 本 科学 位 。 




















丁子 涵 ”英国 帝国 至 
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-智能 技术 ， 是 深度 学 习 























作者 简介 








型 ， 目 的 是 降低 学 习 
F 源 框架 TensorLayer 的 创始 人 ， 












































F 源 软件 奖 。 在 英国 




















4 林 斯 顿 大 学 博 

















学 院 和 英国 中 央 兰 开 夏 大 学 获 





学 金 ， 曾 在 加 拿 大 Borealis Al, 

















腾讯 Robotics X 实验 室 有 过 了 
研究 方向 主要 涉及 强化 学 习 、 机 器 人 控 M 
Physical Review 等 顶级 期 刊 与 














项 目的 贡献 者 。 
仍 尚 航 ” 加州 大 学 1 
































adaptation. self lear 





























B. Th SEA Gt So 

















年 获得 卡 内 基 ， 梅 隆 大 学 博 - 
NeurIPS、CVPR、ICCV、TNNLS、AAAI、IJCAI 等 人 工 智 da 
主要 从 事 Human-inspired sample-efficient learning 理论 与 


ning 等 。 






































得 AAAI 2021 Best Paper Award、 美 





到 科学 技术 大 学 ， 获 物理 和 计算 机 双 学 位 。 
在 ICRA, NeurIPS, AAAI, IJCAI, 
会 议 发 表 多 篇 论文 ,是 TensorLayer-RLzoo. TensorLet 和 Arena 开源 














白 克利 分 校 BAIR 实验 室 (Berkeley AI Research Lab) 博士 后 研究 员 。 于 2018 
研究 方向 主要 涉及 深度 学 习 、 计 算 机 视觉 及 强化 学 习 。 在 











会 议 发 表 多 篇 论文 。 目 前 


25. 包括 low-shot learning. domain 
国 2018 Rising Stars in EECS、 





Adobe Collaboration Fund. Qualcomm Innovation Fellowship Finalist Award 等 奖励 。 


ROm 英国 牛津 大 学 计算 机 














习 在 健康 医疗 中 的 运用 。 
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JHE « 梅 隆 大 学 。 





在 读 、 李 嘉 诚 奖 学 








主攻 人 工 智能 安全 和 深度 学 





















































在 欧美 各 大 高 校 和 研 $ 























里 工学 院 、 马 克 斯 普 朗 元 研 



































张 鸿 铭 ”中国 科学 院 自 动 化 
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要 研究 方向 为 深度 学 习 、 机 器 学 习 、 文 本 挖掘 、 

















研究 方向 涉及 统计 机 器 学 习 、 强 化 学 习 和 启发 式 搜索 。 
里 工学 院 数据 科学 院 院 长 郭 表 可 院士 。 主 
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自从 1946 年 第 一 台 真 正 意 


























随 着 算 力 的 提高 和 数据 的 增长 ， 


些 任 务 上 的 表现 甚至 已 经 超越 人 类 ， 比 如 围棋 、 象 棋 ， 以 及 一 些 疾病 诊断 和 电子 游戏 等 。 人 工 智 


支 术 还 能 被 广泛 用 于 其 他 应 ) 
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义 上 的 计算 机 发 明 以 来 ， 人 们 





直 致 力 于 建造 更 加 智能 的 计算 机 。 

















人 工 智能 (Artificial Intelligence, AD) 获得 了 空前 的 发 展 ， 在 一 









































中 ， 比 如 药物 发 现 、 天 气 预 测 、 








与 控制 、 自 动 轰 驶 、 人 脸 识别 、 








语音 识别 和 对 话 系统 。 








近 十 年 来 ， 很 多 国家 ， 比 妇 





与 此 同时 , 还 有 很 多 科技 巨头 ， 
节 跳 动 和 阿里 巴巴 等 ， 也 都 积极 地 参与 其 中 。 人 工 智能 在 我 们 的 日 常生 活 中 正 变 得 无 处 不 在 ， 如 


自动 驾驶 汽车 、 人 脸 ID 























在 我 们 深入 阅读 本 书 之 前 ， 














urn Bg. 英国 、 美国 、 AA, 德国 
































材料 设计 、 推 荐 系统 、 机 器 感知 














， 对 人 工 智能 进行 了 大 量 的 投入 。 












































比如 Google, Facebook, Microsoft, Apple, HIE. EI, Bm Z 


























AUN A. ETR, AT REM ARASH IRB 
第 一 步 应 该 先 了 解 人 工 智能 领域 不 同 的 子 领域 , 如 机 器 学 习 (Ma- 


chine Learning, ML), KEZ] (Deep Learning，DL)、 强 化 学 习 (Reinforcement Learning, RL), 


以 及 本 














Diagram) 展示 了 它们 之 间 的 关系 ， 下 面 将 会 逐一 介绍 它们 。 


人 工 智 能 























虽然 科学 家 一 直 以 来 都 在 努力 让 计算 机 变 得 越 来 越 智 能 ， 


























忆 的 主题 一 一 深度 强化 学 习 (Deep Reinforcement Learning, DRL). Al 1 用 韦 恩 图 (Venn 








但 是 “智能 ”的 定义 直到 今天 依 























然 是 非常 模糊 的 。 在 这 个 问题 上 ，Alan Turing 最 早 在 他 1950 年 曼城 大 学 时 的 文章 Computing 


Machinery and Intelligence PAA T RARUA (Turing Test). 。 图 























灵 测 试 可 以 用 来 衡量 机 器 模拟 人 





类 行为 的 能 力 大 小 。 有 具体 来 说 ， 它 描述 了 一 个 “imitation game”， 一 个 质问 者 向 一 个 人 和 一 台 计 
算 机 提出 一 系列 问题 , 用 以 判断 哪个 是 人 ， 哪 个 是 机 器 。 当 且 仅 当 质 问 者 不 能 分 辨 出 人 和 机 器 时 ， 








图 灵 测 试 就 通过 了 。 


















































人 工 智 能 的 概念 最 早 是 由 John McCarthy 在 1956 年 夏天 的 达 特 茅 斯 (Dartmouth) 会 议 上 提 


























出 的 。 这 次 会 议 被 认为 是 人 工 智 能 正式 进入 计算 机 科学 领域 的 天 





F 端 。 最 早期 的 人 工 智能 算法 主要 

















用 于 解决 可 以 被 数学 符号 和 逻辑 规则 公式 化 的 问题 。 
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图 1 人 工 智能 、 
机 器 学 习 
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Artificial Intelligence 
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机 器 学 习 


Machine Learning 


深度 学 习 


Deep Learning 










深度 强化 学 习 


Deep Reinforcement Learning 












强化 学 习 


Reinforcement Learning 
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机 器 学 习 、 深 度 学 习 、 强 化 学 习 及 深度 强化 学 习 之 间 的 关系 


机 器 学 习 (Machine Learning, ML) 的 概念 和 名 字 是 由 Arthur Samuel (Bell Labs, IBM, Stanford ) 
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1959 年 首次 提出 来 的 。 
称 为 机 器 学 习 。 很 多 人 了 





























个 人 工 智 能 系统 需要 
[智能 问题 可 以 被 这 样 解决 : 通过 设计 























数据 中 提取 有 效 特征 
比如 ， 在 早期 的 人 
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Neural Network, ANN) (Goodfellow et al., 2016) 来 实现 。 我 们 之 所 以 称 它 为 神经 网 络 ， 是 
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Logical Calculus of the Ideas Immanent in Nervous Activity (McCulloch et al., 1943) IAJ A T} 


H6 
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DES E, 果 。 长 
提取 算法 的 过 程 非常 








， 然 后 
脸 识 别 算法 中 ， 我 们 需要 特殊 的 人 脸 特征 提取 算法 。 最 简 


























机 器 学 习 算法 使 用 这 些 特征 。 




















主 成 分 分 析 (Principal Component Analysis, PCA) 降低 数据 的 允 





上 有 针对 性 的 模 





kk 备 从 原始 数据 中 学 习 知 识 的 能 力 ， 这 个 能 力 


式 识别 算法 来 从 原 
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DAR, ASDA a BEALE UOTE RPG 
耗 时 ， 而 且 在 很 多 任务 ! 
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Berl A EP EE AAP 
学 专家 
[提取 算 法 ， 以 大 大 降低 算法 天 











程 算法 。 针 
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E 提 取 算法 
助 。 然而 ， 








的 方法 就 是 使 
低 维 度 特 征 输入 一 
对 不 同 问题 设计 特 
的 难度 非常 大 。 比 

个 通用 的 算法 





























[发 过 程 




















术 界 有 很 多 下 
还 能 降低 解决 人 
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SN Las 21 HE 
能 问题 的 成 本 。 
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深度 学 习 是 机 器 学 习 














由 生物 六 

















的 一 个 子 领域 , 5j 

















所 需 的 人 力 的 先 验 


动 学 习 数据 的 表征 。 表 征 学 习 的 智能 化 不 仅 可 以 提升 


其 他 算法 不 同 , 它 主 要 基于 人 工 神 经 网 络 CArtificial 





K| 





NE 








经 网 络 启发 设计 的 。Warren Sturgis McCulloch 和 Walter Pitts 在 1943 年 共同 发 表 的 4 
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网 络 的 开端 。 至 此 ， 人 工 神经 网 络 作为 一 种 全 自动 特征 学 习 器 ， 使 得 我 们 不 需要 对 不 同 数据 开发 
特定 的 特征 提取 算法 ， 从 而 大 大 提高 了 开发 算法 的 效率 。 

深度 神经 网 络 (Deep Neural Network, DNN) 是 人 工 神经 网 络 的 “深度 ”版 本 ， 有 很 多 的 神 
经 网 络 层 ， 深 层 的 网 络 相 比 浅 层 的 网 络 具 有 更 强 的 数据 表达 能 力 。 图 2 展示 了 深度 学 习 方 法 与 非 
深度 学 习 方 法 的 主要 区 别 。 深 度 学 习 方 法 让 开发 者 不 再 需要 针对 特定 数据 来 设计 纯 手工 的 特征 提 
取 算法 。 我 们 因此 也 称 这 些 学 习 算 法 为 端 到 端 (End-to-end) 方法 。 但 值得 注意 的 是 ， 很 多 人 质 
疑 ， 深 度 学 习 方法 是 一 个 黑 盒 子 (Black-box)， 我 们 并 不 知道 它 是 如 何 学 到 数据 特征 表达 的 ， 往 
往 缺 乏 透 明 性 和 可 解析 性 。 
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| 数据 JD 特征 工程 D 学习 算法 D 结果 | 





























[数据 nesame Dan) 











图 2 ”深度 学 习 方 法 与 非 深度 学 习 方 法 的 区 别 





























虽然 现在 看 来 ， 深 度 学 习 非 常 流行 ， 但 是 在 人 工 神 经 网 络 早期 发 展 阶段 ， 受 制 于 当时 计算 机 
算 力 和 黑 盒子 问题 ， 实 际 应 用 很 少 ， 并 未 受到 学 术 界 的 广泛 关注 。 

这 种 情况 直到 2012 年 才 得 到 了 改变 ， 当 年 一 个 叫 Alexnet (Krizhevsky et al., 2012) 的 模型 在 
ImageNet 图 像 分 类 竞赛 (Russakovsky et al., 2015) 中 取得 了 超过 其 他 方法 10% 以 上 的 性 能 。 从 此 ， 
深度 学 习 开 始 受到 越 来 越 多 的 关注 ， 深 度 学 习 方 法 开始 在 很 多 不 同 领域 超越 非 深度 学 习 方 法 ， 比 
如 大 家 熟悉 的 计算 机 视觉 (Girshick, 2015; Johnson et al., 2016; Ledig et al., 2017; Pathak et al., 2016; 


EE 


Vinyals et al., 2016) 和 自然 语言 处 理 (Bahdanau et al., 2015). 















































强化 学 习 
































深度 学 习 虽 然 具 有 了 很 强大 的 数据 表达 能 力 ， 但 不 足以 建立 一 个 智能 的 人 工 智 能 系统 。 这 是 
因为 人 工 智能 系统 不 仅 需 要 从 给 定 的 数据 中 学 习 ， 而 且 还 要 像 人 类 那样 学 习 与 真实 世界 交互 。 强 
化 学 习作 为 机 器 学 习 的 一 个 分 支 ， 即 可 让 计算 机 与 环境 进行 交互 学 习 。 

简单 来 说 ， 强 化 学 习 把 世界 分 为 两 个 部 分 : 环境 (Environment) 与 智能 体 (Agent)。 智 能 体 
通过 执行 动作 (Action) 来 与 环境 交互 ， 并 获得 环境 的 反馈 。 在 强化 学 习 中 ， 环 境 的 反馈 是 以 奖 
ja) (Reward) 形式 体现 的 。 智 能 体 学 习 如 何 “ 更 好 ”地 与 环境 交互 ， 以 尽 可 能 获得 更 大 的 奖励 。 
这 个 学 习 过 程 建立 了 环境 与 智能 体 间 的 环 路 ， 通 过 强化 学 习 算 法 来 提升 智能 体 的 能 
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深度 强化 学 习 


深度 强化 学 习 结 合 了 深度 学 习 和 强化 学 习 各 自 的 优点 来 建立 人 工 智 能 系统 , 主要 在 强化 学 习 
中 使 用 深度 神经 网 络 的 强大 数据 表达 能 力 ， 例 如 价值 函数 (Value Function) 可 以 用 神经 网 络 来 近 
似 ， 以 实现 端 到 端的 优化 学 习 。 

DeepMind 是 一 家 成 立 于 伦敦 、 以 科研 为 主导 的 人 工 智 能 技术 公司 ， 在 深度 强化 学 习 历 史上 
具有 非常 重要 的 地 位 。2013 4E, 仅 在 AlexNet 提出 一 年 以 后 , 他 们 就 发 表 了 论文 Playing Atari with 
Deep Reinforcement Learning, 该 文 基于 电子 游戏 的 原始 画面 作为 输入 , 学 习 了 7 种 游戏 .DeepMind 
的 方法 不 需要 手工 设计 特征 提取 算法 ， 在 6 个 游戏 中 优 于 之 前 的 方法 ， 甚 至 在 1 个 游戏 中 赢 了 
人 类 。 

2017 年 ，DeepMind 的 AlphaGO 围棋 算法 在 中 国 打败 了 世界 第 一 围棋 大 师 一 一 柯 洁 。 该 事件 
标志 着 人 工 智 能 具备 比 人 类 更 好 表现 的 潜力 。 深 度 强化 学 习 是 机 器 学 习 的 一 个 子 领域 ， 具 有 实现 
通用 人 工 智能 (Artificial General Intelligence, AGI) 的 潜力 。 但 是 还 有 很 多 的 挑战 需要 我 们 解决 ， 
才能 真正 地 实现 
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见 这 个 理想 的 目标 。 























TensorLayer 








强化 学 习 的 算法 很 多 ， 而 且 从 学 习 算 法 到 实现 算法 有 一 定 的 距离 。 因 此 ， 本 书 中 很 多 章节 会 
有 实现 教学 ， 我 们 会 展示 一 些 算法 中 的 关键 部 分 是 如 何 实现 的 。 自 从 深度 学 习 变 得 流行 以 来 ， 出 
现 了 很 多 开源 的 框架 ， 比 如 TensorFlow、Chainer、Theano 和 PyTorch 等 ， 以 支持 神经 网 络 的 自动 
优化 。 在 本 书 中 ,我 们 选择 TensorLayer， 一 个 为 科研 人 员 和 专业 工程 师 设 计 的 深度 学 习 与 强化 学 
习 库 。 该 库 获 得 了 ACM Multimedia 2017 年 度 最 佳 开源 软件 奖 。 在 本 书 定稿 时 ，TensorLayer 2.0 
支持 TensorFlow 2.0 作为 后 端 计算 引擎 ， 而 在 下 一 版 本 中 ，TensorLayer 将 会 支持 更 多 的 其 他 计算 
引擎 ， 如 华为 MindSpore， 以 更 好 地 支持 国内 外 的 AI 训练 芯片 。 更 多 关于 TensorLayer 的 最 新 信 
息 ， 请 访问 GitHub 页 面 1。 
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本 书 尽 可 能 地 减少 了 和 数学 相关 的 内 容 ， 以 帮助 读者 更 加 直观 地 理解 深度 强化 学 习 。 本 书 的 








































































































数学 符号 约定 如 下 。 
^D 
基础 符号 
x scalar， 标 量 
x vector, 向 量 
X matrix, JERE 
R the set of real numbers, KAE 
dy derivative of y with respect to x， 标 量 的 导数 
ou partial derivative of y with respect to zx， 标量 的 偏 导 数 
Vay gradient of y with respect to x， 问 量 的 梯度 
Vxy matrix derivatives of y with respect to X, ERER SH 
P(X) a probability distribution over a discrete variable， 离 散 变量 的 概率 分 布 
p(x) a probability distribution over a continuous variable, or over a variable whose type has 
not been specified， 连 续 变 量 (或 者 未 定义 连续 或 者 离散 的 变量 ) 的 概率 分 布 
Xp the random variable X has distribution， 随 机 变量 X 满足 概率 分 布 p 
[X] expectation of a random variable， 随 机 变量 的 期 望 
Var[X] variance of a random variable， 随 机 变量 的 方差 
Cov(X,Y) covariance of two random variables， 两 个 随机 变量 的 协 方差 





XVII 


数学 符号 





DkL(PlIQ) Kullback-Leibler divergence of P and Q， 两 个 概率 分 布 的 KL 散 度 


A'(az;p,X) Gaussian distribution over æ with mean p and covariance X, FIEX u 














Hy x sos 
强化 学 习 符 号 


s,s’ states, JÑ% 
a action, SVE 
r reward, JE 
reward function, X Jp) pr Be 


S set of all non-terminal states， 非 终结 状态 





S+ set ofall states, including the terminal state， 全 部 状态 ， 


A set of actions, Z/JES& 








R set of all possible rewards， 奖 励 集合 


P transition matrix, 1242 4B [UE 











t discrete time step， 离 散 时 间 步 
T final time step of an episode， 回 合 内 最 终 时 间 步 











St state at time +， 时间 t 的 状态 


At action at time t, AY TR] 的 动作 


























协 方差 











包括 终结 状态 











Ri reward at time t, typically due, stochastically, to A; and S,, EFE) t 的 奖励 ， 通 常 为 




















随机 量 ， A, 和 S, 决定 


G, return following time t, [n] 


























go n-step return following time t, n 步 回报 





G?  A-return following time t, 4- 回报 


T policy, decision-making rule， 策 略 


m(s) action taken in state s under deterministic policy n, WR 


的 动作 


XVIII 

















nifi ae M 


策略 m. dA s 时 





p(s’, r|s, a) 


p(s'|s, a) 


o, B 





probability of taking action a in state s under stochastic policy x"， 根 据 随机 性 策略 
7, RAS s 时 执行 动作 a 的 概率 

probability of transitioning to state s’, with reward r, from state s and action w， 根 据 
状态 s 和 动作 a， 使 得 状态 转移 成 * 且 获 得 奖励 v 的 概率 

probability of transitioning to state s’, from state s taking action ag， 根据 状态 s 和 
VE a， 使 得 状态 转移 成 s 的 概率 

value of state s under policy 7 (expected return)， 根 据 策略 m, IRA s 的 价值 〈 
报 期 望 ) 


value of state s under the optimal policy， 根 据 最 优 策 略 ， 状 态 s 的 价值 


























b 
c 




















H 








value of taking action a in state s under policy x， 根据 策略 +， 在 状态 s 时 执行 动 
TE a 的 价值 


value of taking action a in state s under the optimal policy， 根 据 最 优 策略 ， 在 状态 
s 时 执行 动作 a 的 价值 


estimates of state-value function va (s) or vs(s)， 状 态 价值 函数 的 估计 














estimates of action-value function qr(s,a) or qx (s,Q)， 动 作价 值 函 数 的 估计 

















trajectory, which is a sequence of states, actions and rewards, 
du (So, Ao, Ro, $1, Ai, Ri, aaa )， 状态 、 动作 、 奖励 的 轨迹 
reward discount factor, y € [0,1， 奖 励 折扣 因子 








probability of taking a random action in e-greedy policy， 根 据 e- 贪 焚 策 略 ， 执 行 随 
机 动作 的 概率 


step-size parameters， 步 长 


decay-rate parameter for eligibility traces， 资 格 迹 的 衰减 速率 


强化 学 习 中 术语 总 结 





除了 在 本 

















开头 的 数学 符号 法 则 中 定义 的 术语 ， 强 化 学 习 中 常见 内 容 的 相关 术语 总 结 如 下 : 











R 是 奖励 函数 ，Ri = R(S,) 是 MRP 中 状态 S, 的 奖励 ，Ri = R(S;, At) 是 MDP 中 的 奖励 ， 


DS: ES。 





R(T) 是 轨迹 7 的 -折扣 化 回报 ，R(7) = 359 YiRi。 
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XX 


p(T) 是 轨迹 的 概率 : 





Distribution ) 。 





- p(T) = po(So) [IY P(St41/St) 对 于 MP 和 MRP, po(So) 是 起 始 状态 


分 布 (Start-State 





- p(TI7) = po(So) I (AlS) 对 于 MDP，po(So0) 是 起 始 状态 分 布 。 













































































































































































































































































J(7) 是 策略 r 的 期 望 回报 ，J(r) = 三 p(rlr)Rr) = Er~x[R(7)]。 

7* 是 最 优 策 略 : n" = arg maxr (s Jo 

Un(s) 是 状态 s 在 策略 x 下 的 价值 (期 望 回 报 )。 

v.(s) 是 状态 s 在 最 优 策略 下 的 价值 (期 望 回报 )。 

dn(s, a) 是 状态 s 在 策略 x 下 采取 动作 a 的 价值 (期 望 回报 )。 

qx (s,Q) 是 状态 s 在 最 优 策 略 下 采取 动作 a 的 价值 (期 望 回 报 )。 

V (s) 是 对 MRP 中 从 状态 s 开始 的 状态 价值 的 估计 。 

V* (s) 是 对 MDP 中 在 线 状 态 价值 函数 的 估计 ， 给 定 策略 rx， 有 期 望 回报 : 
- V"(s) & v. (s) = Ec. 4 [R(r)|So = s] 

Q" (s, a) 是 对 MDP 下 在 线 动作 价值 函数 的 估计 ， 给 定 策略 +， 有 期 望 回报 : 
— Q"(s,a) z qx(s,a) = Er~a[R(T)|So = s, Ao = a] 

V*(s) 是 对 MDP 下 最 优 动作 价值 函数 的 估计 ， 根 据 最 优 策略 ， 有 期 望 回报 : 
— V*(s) z v.(s) = max, E,.,[R(r)|So = s] 

Q* (s, a) 是 对 MDP 下 最 优 动 作价 值 函数 的 估计 ， 根 据 最 优 策 略 ， 有 期 望 回报 : 
- Q*(s,a) © q.(s, a) = max, Ez, [|R(r)|So = s, Ao = a] 

A7 (s, a) 是 对 状态 s 和 动作 a 的 优势 估计 函数 : 
- A*(s,a) = Q7(s,a) — V” (s) 

在 线 状 态 价 值 函数 v(s) 和 在 线 动作 价值 函数 qu (s.a) 的 关系 : 
- ur(s) = Eas [qs (5, a)] 

最 优 状态 价值 函数 v (s) 和 最 优 动作 价值 函数 qu (s, a) 的 关系 : 
— v.(s) = max, q.(s,a) 

a.(s) 是 状态 s 下 根据 最 优 动作 价值 函数 得 到 的 最 优 动 作 : 
— a(s) = arg maxa q.(s, a) 

对 于 在 线 状态 价值 函数 的 贝尔 曼 方程 : 
= vr(s) = Earva(.ls),s’~p(.ls,a) (8; @) + Yr (s’)] 

对 于 在 线 动作 价值 函数 的 贝尔 曼 方程 : 
- q«(s, a) = Essa) (5; a) + Eanair [n (s',@')] 












































于 最 优 状态 价值 函数 的 贝尔 曼 方 程 : 
a)[R(s, a) + yv. (s')] 











— v,(s) = max, Es,~p(.|s, 


对 于 最 优 动作 价值 函数 的 贝尔 曼 方程 : 
R(s,a) + ymaxa qx(s’, a/)] 






































xx qx (5, a) = s/w p(-|s,a) 
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基础 部 分 





本 书 第 一 部 分 包括 6 个 章节 ， 介 绍 深度 学 习 、 强 化 学 习 及 广泛 应 用 的 深度 强化 学 习 算法 及 其 
实现 。 有 具体 来 说 ， 前 两 章 介 绍 深度 学 习 和 强化 学 习 的 基本 概念 ， 以 及 少量 深度 强化 学 习 的 基本 知 
识 ， 这 些 内 容 对 读者 阅读 后 续 章 节 非 常 重要 。 如 果 您 已 经 掌握 了 这 些 基 本 知识 ， 完 全 可 以 跳 过 这 
两 个 章节 。 但 我 们 还 是 建议 您 阅读 第 2 章 ， 这 有 助 于 熟悉 本 书 的 术语 和 数学 公式 。 

第 3 章 介 绍 了 强化 学 习 算 法 的 分 类 ， 以 帮助 大 家 从 不 同 的 角度 来 对 深度 强化 学 习 算 法 有 全 
局 的 认识 。 分 类 包括 基于 模型 的 (Model-Based) 与 无 模型 的 (Model-Bree) 方法 、 基 于 策略 的 
(Policy-Based) 与 基于 价值 的 《Value-Based) 方法 、 蒙 特 卡 罗 (Monte Carlo, MC) 与 时 间 差 分 
(Temporal Difference, TD) 方法 、 在 线 策略 (On-Policy) 与 离线 策略 (Off-Policy) 方法 ， 等 等 。 
如 果 读 者 在 阅读 本 书 其 他 章节 时 ， 对 算法 的 分 类 与 属性 有 困惑 ， 可 回 到 第 3 章 仔细 思考 。 我 们 会 
在 第 4 一 6 章 详细 介绍 一 些 常见 的 深度 强化 学 习 算 法 ， 通 过 实例 代码 帮助 大 家 深入 理解 算法 的 细 
节 和 实现 技巧 。 
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度 学 习 入 门 








深度 学 习 是 深度 强化 学 习 的 习 
简单 的 单 层 神经 网 络 天 






































要 构成 部 分 。 本 章 将 首先 简要 介绍 深度 学 习 的 基础 知识 ， 会 从 
































F 始 ， 逐 渐 引 入 更 加 复杂 且 学 习 能 力 更 强 的 神经 网 络 模型 ， 比 如 卷 积 神经 网 











络 和 循环 神经 网 络 的 模型 。 本 章 在 最 后 将 提供 一 些 代码 样 例 ， 用 于 介绍 深度 学 习 的 实现 过 程 。 
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如 果 您 已 经 非常 熟悉 深度 学 习 ， 则 可 以 从 第 2 章 开 始 阅读 。 如 果 您 想 对 深度 学 习 中 的 部 分 














内 容 进行 深入 的 学 习 和 了 解 ， 推 荐 您 参阅 其 他 相关 图 书 ， 例 如 Pattern Recognition and Machine 























Learning (Bishop, 2006) 和 Deep Learning (Goodfellow et al, 2016)。 与 经 典 强化 学 习 不 同 的 是 ， 深 




















们 可 以 大 致 将 深度 学 习 模 型 分 为 以 下 两 大 类 。 














的 任务 ， 例 如 ， 分 类 任务 和 回归 任务 。 具 体 来 说 ， 在 分 类 任务 中 ， 模 型 需要 根据 输入 数据 从 备 选 
。 如 果 一 个 任务 中 仅 有 两 个 备 选 类 别 且 模型 只 需要 从 中 选取 一 个 正确 











类 别 中 选择 正确 的 目标 类 另 























判别 模型 用 于 建 模 条 件 概率 p(y|z)， 


判别 模型 基于 输入 数据 >， 预测 相对 应 的 村 








` 





度 强化 学 习 是 基于 深度 学 习 模型 ， 即 深度 神经 网 络 ， 来 利用 大 数据 和 高 性 能 计算 强大 优势 的 。 我 











其 中 z 代表 输入 数据 ， 而 y 代表 输出 目标 。 也 就 是 说 ， 
签 y。 顾 名 思 义 ， 判 别 模 型 大 多 应 用 于 需要 进行 判断 




















































































































的 目标 类 别 ， 则 为 二 分 类 任务 ， 是 最 为 基本 的 分 类 任务 。 例 如 ， 在 情感 分 析 中 (Maas etal., 2011), 














根据 文本 内 容 ， 判 断 文本 表达 了 正面 的 情绪 还 是 负面 的 情绪 ， 即 二 分 类 任务 。 与 之 相对 应 的 ， 在 


多 标签 分 类 任务 中 ， 备 选 类 别 中 可 能 同 H 





在 很 多 情况 下 ， 









































对 有 多 个 正确 的 目标 类 别 。 






































个 分 类 模型 并 不 直接 指定 目标 类 别 , 而 会 给 每 一 个 备 选 类 别 计算 一 个 概率 。 








例如 ， 模 型 根据 茶 个 数据 样 例 ， 认 为 它 有 80% 的 概率 来 自 类 别 A， 而 男 有 15% 的 概率 来 自 类 别 























B, 5% 的 概率 来 





类 别 C。 之 所 以 使 ) 








] 这 利 








ES 
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于 概率 的 表征 ， 主 要 是 为 了 便于 在 训练 阶段 对 模型 





1.2 























进行 优化 。 深 度 学 习 已 经 在 很 多 像 区 
的 分 类 任务 上 取得 了 巨大 的 成 功 。 
分 类 任务 的 输出 均 为 离散 的 类 别 标签 ， 而 












































条 件 概 率 建 模 的 ， 我 们 就 认为 它 是 判别 模型 。 








回归 任务 则 不 同 。 回 
如 利用 过 去 的 交通 数据 来 预测 未 来 一 段 时 间 内 的 车 速 (Liao et ab, 2018a,b)。 只 要 回归 














归 任 务 的 输出 是 ; 




















像 分 类 (Krizhevsky et al., 2009) 和 文本 分 类 (Yang et al., 2019) 


连续 的 数值 ， 
模型 是 基于 


生成 模型 用 于 建 模 联合 概率 p(z,y)。 生 成 模型 通常 对 可 观测 数据 的 分 布 进行 建 模 ， 从 而 达 
































任务 ， 判 别 


布 。 下 
































— p(z,y-1) 
plz) ^ 


3 p(y = 1x) 
KE BREF 



































EL 2S PA A PP OR UL ETT AIAN TA]. RR DL 
生成 模型 先 学 会 创造 数据 ， 再 去 学 习 如 何 判别 数 
据 ， 当 学 习 了 联合 概率 分 布 p(z,y) 后 即 可 以 学 会 判别 ， 比 如 给 定 观测 输入 zx， 输出 目标 为 1 的 概 


就 是 可 观测 数据 在 给 定 标签 情况 下 的 条 件 概率 。 





经 网 络 都 是 判别 模型 ， 无 论 其 
为 很 多 生成 类 任务 在 具体 实现 中 都 可 以 简化 为 分 类 或 者 下 


图 像 和 对 
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像 朴 素 贝 叶 


像 、 重 构 
















































































斯 对 似 然 概率 (Likelihood) p(zly) 建 模 ， 
































目的 是 用 于 判别 类 任务 还 是 生成 类 任务 。 这 是 
J4 


























2019) 可 以 简化 为 根据 问题 选择 文本 : 























词 表 中 根据 概率 选择 单词 ， 并 组 合成 
使 用 了 分 类 的 方法 ， 男 一 个 则 使 用 了 下 
具体 来 说 ， 本 章 将 介绍 深度 学 


























ag 


















































它们 都 在 尝试 生成 文本 ,但 是 















































]。 本 章 也 将 介绍 基础 的 深度 





元 、 激 活 函数 和 优化 器 等 ， 同 时 将 














CNNs), EUR STAT 
和 TensorLayer 介绍 深度 神经 网 络 的 实现 样 例 。 








1.2 ”感知 器 


TUS 


单 输出 


































































































神经 元 或 节点 是 深度 市 
出 的 ， 也 是 生物 神经 元 的 一 种 
经 元 被 激活 后 ， 通 过 轴 突 将 电信 号 传播 给 其 
















































































经 网 络 最 基本 的 单元 。 多 























| 象 表 示 。 在 大 脑 中 ， 
bh 附近 的 生物 神经 元 。 在 真实 的 生物 系统 中 ， 补 


到 生成 可 观测 数据 的 目的 。 生 成 对 抗 网 络 (Generative Adversarial Networks, GANs) (Goodfellow 
et al., 2014) 就 是 这 样 一 个 例子 , 它 被 用 于 生成 图 
的 深度 学 习 技术 与 可 观测 数据 的 分 布 并 没有 显 式 的 关系 ， 
可 观测 的 真实 样本 之 间 的 相似 程度 。 与 此 同时 ， 
解决 分 类 任务 (Ng et al., 2002; Rish et al., 2001)。 尽 管 生成 模型 和 判别 模型 都 可 以 ) 
模型 关注 的 是 哪 一 个 标签 更 适合 可 观测 数据 ， 而 生成 模型 则 尝试 建 模 可 观测 数据 的 分 


ARAM. 然而 , 类 似 于 GANs 
为 深度 学 习 技 术 更 关注 生成 的 样本 和 
斯 (Naive Bayes) 的 生成 模型 也 用 于 
j 于 解决 分 类 


也 








大 








问题 。 例 如 ， 问 答 系统 (Devlin et al., 
相应 的 段落 ， 自 动 摘要 (Zhang et al., 2019b) 可 以 简化 为 从 
商 要 。 在 这 两 种 场景 下 ， 
习 的 方法 。 
习 相 关 的 基本 元 素 和 技术 ， 例 如 构造 深度 字 
介绍 深度 学 习 相 关 的 应 
例如 多 层 感 知 器 (Multilayer Perceptron, MLP), 42% 
经 网 络 (Recurrent Neural Networks, RNNs). 最后，1.10 节 将 基本 


A 


经 网 络 必 需 的 神经 
上 经 网 络 ， 
经 网 络 (Convolutional Neural Networks, 


F TensorFlow 


经 元 的 概念 最 初 是 基于 大 脑 中 生物 神经 元 提 

















生物 神经 元 通过 树 

















R 接受 电信 和 号 , Epy 


















































的 信息 传递 并 不 是 在 一 瞬间 发 生 的 ， 而 是 需要 经 过 一 步 一 步 传递 的 过 程 ， 这 个 过 程 可 以 形象 地 理 
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解 成 激活 一 个 神经 网 络 。 当 前 , 深度 学 习 的 研究 更 多 地 依赖 深度 神经 网 络 (Deep Neural Networks, 
简称 DNNs), 亦 称 人 造 神经 网 络 (Artificial Neural Networks, 简称 ANNs)。 深度 神经 网 络 中 的 神经 
元 的 输入 和 输出 都 是 数值 。 一 个 神经 元 可 以 跟 下 一 层 的 多 个 神经 元 同时 相连 ， 也 可 以 跟 上 一 层 的 
多 个 神经 元 同时 相连 。 有 具体 来 说 ， 每 个 神经 元 将 上 一 层 神经 元 的 输出 进行 聚合 ， 再 通过 激活 函数 
决定 其 最 终 的 输出 。 如 果 这 些 聚 集 的 输入 信号 足够 强 ， 那么 这 个 激活 函数 将 会 “激活 ”(Activate) 
这 个 神经 元 ， 然 后 这 个 神经 元 会 将 一 个 有 高 数值 的 信号 传递 给 下 一 层 网 络 。 相 对 地 ， 如 果 输 入 信 
号 不 够 强 ， 那 么 一 个 低 数值 信号 将 被 传递 下 去 。 

一 个 神经 网 络 可 以 有 任意 多 个 神经 元 ， 而 这 些 神经 元 彼此 可 以 有 很 多 随机 的 连接 。 但 是 为 了 
运算 更 加 容易 ， 神 经 元 往往 是 层 层 递 进 的 。 一 般 来 说 ， 一 个 神经 网 络 至 少 会 有 两 层 : 输入 层 和 输 
出 层 〈 见 图 1.1) 。 这 个 网 络 可 以 被 公式 (1.1) 描述 ， 它 可 以 做 一 些 简单 的 决定 任务 ， 比 如 帮助 几 
个 学 生根 据 天 气 的 情况 具体 决定 他 们 是 否 外 出 踢 足 球 ， 网 络 输出 的 > 是 一 个 分 数 ， 分 数 越 高 则 代 
表 越 可 以 去 踢 足 球 。 这 个 分 数 取 决 于 三 个 因素 : D 足球 场 的 使 用 费用 mi: 2) RA za; 3) EER 
场 的 时 间 x3。 如 果 天 气 对 大 家 做 这 个 决定 比较 重要 ， 则 其 相对 应 的 网 络 权 重 wa 会 有 较 大 的 绝对 
值 。 同 样 地 ， 那 些 对 做 这 个 决定 影响 较 小 的 因素 ， 所 对 应 的 网 络 权 重 的 绝对 值 就 会 较 小 。 如 果 一 
个 权重 被 设置 为 零 ， 那 么 它 所 对 应 的 输入 就 对 最 终 的 结果 完全 没有 影响 。 比 如 ， 有 的 学 生 有 钱 ， 
不 在 乎 足球 场 的 费用 ， 则 wi 为 0。 我们 把 具有 这 样 结构 的 网 络 叫 作 单 一 层 网 络 ， 也 叫 作 感 知 器 


(Perceptron ) 。 






























































































































































































































































































































































































































































Z = WL, + W22 + W3X3 (1.1) 


输入 层 输出 层 


ORO 





















































图 1.1 有 三 个 输入 神经 元 和 一 个 输出 神经 元 的 神经 网 络 


























偏差 与 决策 边 寞 
偏差 (Bias) 是 神经 元 所 附带 的 一 个 额外 的 标量 ， 用 来 偏 移 神经 网 络 的 输出 。 图 1.2 所 示 的 
个 有 偏差 5 的 单 层 神经 网 络 可 以 用 公式 (1.2) 表达 : 










































































Z = Wy, + Wot + w3H3 + b (1.2) 


输入 层 输出 层 


偏差 
图 12 一 个 有 偏差 的 单 层 神 经 网 络 


im) Wy 
ORTO 
Ws 


















































偏差 可 以 帮助 一 个 神经 网 络 更 好 地 学 习 数 据 。 我 们 不 妨 定义 以 下 二 分 类 问题 : 对 于 输出 z, 
MS z 为 正 数 ， 其 所 对 应 的 标签 y 为 1， 反之 为 0: 


1 z>0 
-| (1.3) 


























lE 














0 z<0 











二 分 类 任务 的 样本 数据 分 布 例子 如 图 1.3 所 示 。 我 们 现在 需要 找到 最 符合 这 些 数 据 的 权重 和 
偏差 。 我 们 把 这 些 样本 数据 分 成 两 个 不 同 的 类 别 的 边界 定义 为 决策 边界 。 正 式 来 说 ， 这 个 边界 是 
[z1,22, z3|wi21 + W2£2 + waza + b = 0}。 

我 们 首先 把 这 个 问题 简化 到 只 有 两 个 输入 的 情况 下 ， 即 > = wizi t+ wore 十 5。 如 图 1.3 左 
所 示 ， 如 果 没 有 偏差 值 ， 也 就 是 说 b= 0， 那 么 决策 边界 必须 穿 过 坐标 系 的 原点 〈 左 下 的 线 )。 但 
是 ， 这 样 很 明显 不 符合 数据 的 分 布 ， 因 为 我 们 的 数据 点 都 是 在 这 个 边界 的 一 侧 。 如 果 偏 差 值 不 是 
0， 那 么 决策 边界 与 两 个 轴 的 交点 就 为 (0,-2) 和 (一 地 ,0)。 这 样 来 看 ， 如 果 我 们 的 权重 和 偏差 
值 选 得 好 ， 那 么 决策 边界 就 能 更 好 地 符合 数据 分 布 。 
进一步 来 说 ， 当 一 个 神经 元 有 三 个 输入 的 时 候 ，z = wt 十 wt + wrs 十 5b， 此 时 的 边界 
就 会 变 成 如 图 1.3 右 所 示 的 平面 。 在 一 个 如 单 层 神经 网 络 〈 见 公式 (1.2)) 的 线性 模型 中 ， 这 样 的 
一 个 平面 也 被 称 为 超 平面 (Hyperplane )。 
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场景 下 的 决策 边界 。 左 : z= wz + wr + bo A: 


模型 分 别 在 两 个 输入 和 三 个 输入 | 




















z = Wi + w2z2 十 Wax3 十 b。 若 没有 偏差 ， 则 决策 边界 必须 经 过 原点 ， 不 能 很 好 地 分 类 


多 输出 



























































ZEN ZR AY EUR EMT 个 有 两 个 输出 神经 元 的 

















HE 
x (1.4) 所 得 。 
者 全 连接 层 
































为 每 一 个 输出 者 
(Fully-Connected (FC) Layer ): 








和 全 部 输入 相连 ， 所 以 输出 层 也 被 称 为 密集 层 (Dense Layer) 或 
























































有 三 个 输入 和 两 个 输出 的 家 






































在 实践 中 ， 全 连接 层 也 可 以 被 矩阵 乘法 实现 : 

































































z-We+b (1.5) 
HF, Wem"*" 是 用 来 表示 权重 的 矩阵 ，z eR”, x €CR",DER™ 分 别 用 来 表示 输出 、 输 
人 
T1 
Zi Wil W12 3 bi 
= 2Z2 | + (1.6) 
Z2 w21 W22 W23 b» 
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多 层 感知 器 (Multi-Layer Perceptron, MLP) (Rosenblatt, 1958; Ruck et al., 1990) 最 初 指 至 少 
两 个 全 连接 层 的 网 络 。 图 1.5 展现 了 一 个 有 四 个 全 连接 层 的 多 层 感知 器 。 那些 在 输入 层 和 输出 层 
中 间 的 网 络 层 被 隐藏 (Hidden) 了 ， 因 为 一 般 来 说 从 网 络 外 面 是 没有 办 法 直接 接触 它们 的 ， 所 以 
被 统称 为 隐藏 层 “Hidden Layers)。 相 比 只 有 一 个 全 连接 层 的 网 络 ，MLP 可 以 从 更 复杂 的 数据 
学 习 。 从 另外 一 个 角度 来 看 MP 的 学 习 能 力 是 大 于 单一 层 网 络 的 学 习 能 力 的 。 但 是 拥有 更 多 的 
隐藏 层 并 不 意味 着 一 个 网 络 会 有 更 强 的 学 习 能 力 。 通 用 近似 定理 说 的 是 : 一 个 有 一 层 隐藏 层 的 家 
经 网 络 〈 类 似 于 有 一 层 隐 藏 层 的 MLP) 和 任何 可 挤 压 的 激活 函数 〈 见 后 文 的 sigmoid 和 tanh) 在 
这 一 层 网 络 有 足够 多 神经 元 的 情况 下 ， 可 以 估算 出 任何 博 莱 尔 可 测 函 数 (Goodfellow et al., 2016; 
Hornik et al., 1989; Samuel, 1959)。 但 是 实际 上 ， 这 样 的 网 络 可 能 会 非常 难以 训练 或 者 容易 过 拟 合 
COverfit) 〈 见 后 文 ) 。 因 为 隐藏 层 非常 大 ， 所 以 一 般 的 深度 神经 网 络 都 会 有 几 层 隐藏 层 来 降低 训 
练 难度 。 

为 什么 需要 多 层 网 络 ? 为 了 回答 这 个 问题 我 们 首先 通过 逻辑 运算 的 几 个 例子 来 展示 一 个 网 
络 是 怎么 估算 一 个 方程 的 。 我 们 会 考虑 的 逻辑 运算 有 : 与 (AND)、 或 (OR)、 同 或 (XNOR), 
异 或 (XOR)、 或 非 (NOR)、 与 非 (NAND)。 这 些 运算 输入 都 是 两 个 二 进 制 数字 ， 然 后 输出 为 1 
或 者 0。 如 与 (AND )， 只 有 两 个 输入 同时 为 1，AND 才 会 输出 1。 这 些 简单 的 逻辑 计算 可 以 很 容 
易 就 被 感知 器 学 习 ， 就 像 公式 (1.7) 里 展现 的 那样 。 





































































































































































































































































































1 如 果 z>0 
f(x) = , 2 = wit, + were +b (1.7) 
0 其 他 情况 








图 1.6 展示 了 被 感知 器 定义 的 决策 边界 可 以 很 轻松 地 把 AND. OR. NOR 和 NAND 运算 的 0 
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和 1 分 开 出 来 ， 但 是 ，XOR 或 XNOR 的 决策 边界 是 不 可 能 被 找到 的 。 





输入 层 隐藏 层 1 隐藏 层 2 隐藏 层 3 输出 层 












































图 1.5 一 个 具有 三 个 隐藏 层 和 一 个 输出 层 的 多 层 感知 器 。 图 中 使 用 a! 表示 神经 元 ， 其 中 1 代表 
RARS, i 代表 输出 的 索引 
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图 1.6 左上 : 有 两 个 输入 和 一 个 输出 的 感知 器 。 剩 下 的 是 : 不 同 的 用 来 把 0 ( x ) 和 1 ( 。) DA 
的 决策 边界 。 在 这 个 单 层 感知 器 中 ， 能 找到 AND、OR、NOR 和 NAND 的 决策 边界 ， 但 找 
不 到 可 以 实现 XOR 和 XNOR 的 决策 边界 


















































因为 我 们 不 能 用 一 个 线性 模型 像 单个 感知 器 那样 直接 估算 XOR, 所 以 必须 要 转化 输入 。 图 1.7 
展现 了 一 个 用 有 一 层 隐 藏 层 的 MLP 去 估算 XOR， 这 个 MLP 首先 将 通过 估计 OR 和 NAND 运算 
把 21,22 转换 到 了 一 个 新 的 空间 ， 然 后 在 这 个 转换 过 的 空间 里 ， 这 些 点 就 可 以 被 一 条 估算 AND 
的 平面 分 开 了 。 这 个 被 转换 过 后 的 空间 也 被 称 为 特征 空间 。 这 个 例子 说 明了 怎么 通过 特征 的 学 习 
来 改善 一 个 模型 的 学 习 能 力 。 

































































l4 ie hae 
































数据 点 变 得 线性 可 分 离 





XOR 
图 1.7 Æ: 一 个 可 以 估算 XOR 的 MPs PAE: 把 原始 数据 点 转化 到 特征 空间 ， 从 而 使 得 这 些 

















1.4 ”激活 函数 


矩阵 的 加 减 和 乘除 运算 都 是 线性 运算 符 ， 








但 是 一 个 线性 模型 的 学 习 能 力 还 是 相对 有 限 的 。 举 




















例 来 说 ,线性 模型 不 能 轻易 地 估算 一 个 余弦 函数 。 因 为 大 多 数 深 度 神经 网 络 解 决 的 真实 问题 都 不 





可 能 被 简单 地 映射 到 一 个 线性 




















转换 ， 所 以 非 线性 

















在 深度 神经 网 络 里 至 关 重 要 。 








实际 上 ， 深 度 学 习 网 络 的 非 线 性 是 通过 激活 函数 来 介入 的 。 这 些 激活 函数 都 是 针对 每 一 个 元 


A (Element-Wise) 运算 的 。 我 们 需要 这 些 激 党 
活 函 数 的 选择 要 根据 具体 的 运用 场景 来 考虑 。 




































































错 的 ， 但 是 在 具体 的 实际 运 























函数 来 帮助 模型 获得 有 任意 数值 的 概率 向 量 。 激 
虽然 有 一 些 激 涡 





























函数 在 大 多 数 的 情况 下 效果 都 是 不 











中 ， 可 能 还 有 更 好 的 选择 。 所 以 激活 函数 的 设计 至 今 都 还 是 一 个 活 





跃 的 研究 方向 。 本 节 主 要 介绍 四 种 非常 常见 的 激活 函数 : sigmoid、tanh、ReLU 和 softmax。 


逻辑 函数 sigmoid 在 作为 激活 函数 时 , EE LAN T 











方程 可 以 在 网 络 的 最 后 一 层 ， 使 用 来 做 一 些 分 类 的 和 有 
个 二 维 的 分 类 器 可 以 把 sigmoid 77 
以 用 一 个 简单 的 临界 值 决定 最 终 输 出 的 标签 是 什么 〈0 或 1)。 

































































f(z) 





_ 1 
~ l+e-# 


BE f ORI 12 IR], 如 公式 (1.8) 所 示 。sigmoid 
FE 务 ， 以 代表 O%~100% 的 概率 。 比 如 说 ， 一 
程 放 在 最 后 一 层 ， 来 把 其 数值 局 限 在 0 和 1 之 中 ， 然 后 我 们 可 





(1.8) 





5 sigmoid 函数 类 似 的 是 ，hyperbolic tangent (tanh) 把 输出 值 控制 到 了 -1 和 1 之 间 ， 就 


如 公式 (1.9) 所 定义 那样 。 


























tanh 函数 可 以 在 隐藏 层 中 使 








来 提高 非 线 性 (Glorot et al., 2011)。 它 也 





可 以 在 输出 层 中 使 用 ， 比 如 网 络 可 以 输出 像素 数值 在 -1 和 1 的 图 像 。 





f(z) 


e* —e 7 


ez +e-2 








(1.9) 














sigmoid 
tanh 
ReLU ReLU 








-2.0 














rectifier. ReLU 被 广泛 地 使 用 








图 1.8 ”展现 三 个 元 素 问 


在 公式 1.11) ! 


T T T T T T T 
-15 -10 -05 0.0 0.5 1.0 1.5 2.0 








位 运用 的 方程 : sigmoid, tanh 和 ReLU, sigmoid 把 数值 限制 在 了 0 和 1 之 




















间 ， 而 tanh 则 把 数值 限制 在 了 -1 和 1 之 间 。 当 输入 是 负数 时 ，ReLU 则 输出 0， 但 当 输入 
是 正 数 时 ， 其 输出 等 于 输入 




















在 公式 (1.10) 中 ， 我 们 定义 了 整流 线性 单元 (Rectified Linear Unit, ReLU) 函数 ， 也 叫 作 



















































































网 络 中 会 更 难以 计算 。 











。 网络 更 好 优化 : ReLU 接近 于 线性 ， 因 为 它 是 由 两 个 线性 函数 组 成 的 。 这 种 性 质 就 使 得 它 更 











于 不 同 的 研究 当中 (Cao et al., 2017; He et al., 2016; Noh et al., 2015), 
在 很 多 层 的 网 络 中 ReLU 通常 会 比 sigmoid 和 tanh 性 能 更 好 (Glorot et al., 2011). 











f@= " (1.10) 





在 实际 运用 中 ，ReLU 有 以 下 优势 。 
。 更 易 实 现 和 计算 : 在 实现 ReLU 的 过 程 中 ， 首 先 我 们 只 需要 把 其 数值 和 0 做 对 比 ， 然 后 根 
据 结 果 来 设 定 输出 是 0 还 是 z。 而 我 们 在 实现 sigmoid 和 tanh 的 过 程 当 中 ， 指 数 函 数 在 大 型 






























































容易 被 优化 ， 我 们 在 本 章 后 面 讲解 优化 细节 时 再 讨论 。 
然而 ReLU 把 负数 变 成 0， 可 能 会 导致 输出 中 信息 的 丧失 。 这 可 能 是 因为 一 个 不 合适 的 学 习 


























也 可 以 被 保留 下 来 。 
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速率 或 者 负 的 偏差 而 导致 的 。 带 油 漏 的 〈Leaky) ReLU 则 解决 了 这 个 问题 (Xu et al., 2015)。 我 们 


对 它 进行 了 定义 。 标 量 a 是 一 个 较 小 的 正 数 来 控制 斜率 ， 使 得 来 自负 区 间 的 信息 






































az 42z<0 
f(z) = (1.11) 
z Azo 


1.5 损失 函数 





有 参数 的 ReLU (PReLU) (He et al., 2015) 和 Leaky ReLU 很 近似 ， 它 把 a 看 作 一 个 可 以 训练 
的 参数 。 目 前 我 们 还 没有 具体 的 证 据 表 明 ReLU、Leaky ReLU 或 PReLU 哪个 是 最 好 的 ， 它 们 在 
不 同 应 用 中 往往 有 不 同 的 效果 。 
不 像 上 述 的 其 他 激活 函数 ， 在 公式 (1.12) 中 定义 的 softmax 函数 会 根据 前 一 层 网 络 的 输出 提 
供 归 一 化 。softmax 函数 首先 计算 指数 函数 e2， 然 后 每 一 项 都 除 以 这 个 值 进行 归 一 。 
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i 2a er 


在 实际 运用 当中 ，softmax 函数 只 在 最 后 的 输出 层 用 来 归 一 输出 向 量 z， 使 其 变 成 一 个 概率 
量 。 这 个 概率 向 量 的 每 一 个 值 都 为 非 负 数 ， 然 后 它们 的 和 最 终 会 为 1。 所 以 ，softmax 函数 在 多 
分 类 任务 中 被 广泛 使 用 ， 用 以 输出 不 同类 别 的 概率 。 


f(z)i (1.12) 













































































1.5 iAH 


到 目前 为 上 ， 我 们 了 解 了 神经 网 络 结构 的 基础 知识 ， 那 么 网 络 的 参数 是 怎么 自动 学 习 出 来 的 
We? 这 需要 损失 函数 (Loss Function) 来 引导 。 有 具体 来 说 ， 损 失 函 数 通 常 被 定义 为 一 种 计算 误差 
的 量化 方式 ， 也 就 是 计算 网 络 输出 的 预测 值 和 目标 值 之 间 的 损失 值 或 者 代价 大 小 。 损 失 值 被 用 来 
作为 优化 神经 网 络 参 数 的 目标 ， 我 们 优化 的 参数 包括 权重 和 偏差 等 。 在 本 节 里 ， 我 们 会 介绍 一 些 
基本 的 损失 函数 ，1.6 节 会 介绍 如 何 使 用 损失 函数 优化 网 络 参 数 。 
























































































































































SE SUB AE 


TESTA SCR ZA, EEG A PRI MES: Kullback-Leibler (KL) 散 度 ， 其 作用 是 衡 
量 两 个 分 布 P(z) 和 Q(z) 的 相似 度 : 






























































Pua (PQ) = Esp | 108 2 = 


Oa) | = Ee~Pllog PG) — log Q(@)] (1.13) 


KL 散 度 是 一 个 非 负 的 指标 ， 并 且 只 有 在 已 和 Q 两 个 分 布 一 样 时 才 取 值 为 0。 因 为 KL 散 度 
第 一 个 项 和 Q 没有 关系 ， 我 们 引入 交叉 灶 的 概念 并 把 公式 的 第 一 项 移 除 。 






























































(P,Q) = —Ez~p log Q(z) (1.14) 





























丸 此 ， 通 过 Q sig SE SCR ST FI, KL 散 度 。 在 多 类 别 分 类 任务 中 ， 深 度 神经 网 
络 通过 softmax 函数 输出 的 是 不 同类 别 概率 的 分 布 ， 而 不 是 直接 输出 一 个 样本 属于 的 类 别 。 所 以 ， 
我 们 可 以 用 交叉 炉 来 测量 预测 分 布 有 多 好 ， 从 而 训练 网 络 。 

以 一 个 二 分 类 任务 为 例 。 在 二 分 类 中 ， 每 一 个 数据 样本 zx; 都 有 一 个 对 应 的 标签 y; CO 或 1)。 

































































11 





























一 个 模型 需要 预测 样本 是 0 或 者 1 的 概率 ， 用 gnis Gin KER. AX iat pi = 1， 可 














以 把 它 


们 改写 为 训 和 1 一 箔 。 前 者 可 以 代表 一 个 类 别 的 概率 ， 后 者 可 以 代表 另外 一 个 类 别 的 概率 。 因 此 ， 






























































一 个 二 分 类 的 神经 网 络 可 以 只 有 一 个 输出 ， 且 最 后 一 层 使 用 sigmoid. HEA UIE, SX 
I2 
L=- 2. (v log 9; + (1 — yi)log(1 一 i)) (1.15) 














(1 — yi)log(1— 9) 中 ， 对 于 每 一 个 新 样本 ， 两 个 表达 式 的 值 只 有 一 个 不 为 零 。 若 Vi, yi = 
AC UREA 0. 
在 多 类 别 分 类 任务 中 ， 每 一 个 样本 zx; 都 会 被 分 到 3 个 或 者 更 多 的 类 别 中 的 一 个 。 这 






























































fi: 则 


lys 


个 模型 需 预测 每 一 个 类 别 的 概率 (Gir, dos dimh PERM 23832 Gy = 1. 在 























这 里 ， 每 一 个 样本 的 目标 写作 c;， 它 的 值 域 为 [1, M]。 同 时 ， 它 也 可 以 被 转换 成 为 一 个 独 热 
































yi = [yis yiz ,Yi,M]， 其 中 只 有 yu = 1， 其 他 的 都 是 0。 我 们 现在 就 可 以 把 多 类 别 分 
SG UAE Bk: 























1 N M 1 N 
L= 2 23930 log Hig = y DO (0 +++ + Yai 108 Gi, + +++ +0) 
ISI 


i=1 j=1 


1 N 
Te log ic; 
vey 


L 范式 


向 量 ae 的 p- 范 式 用 来 测量 其 数值 幅度 大 小 : 如 果 一 个 向 量 的 值 更 大 ， 它 的 六 范式 也 
个 更 大 的 值 。p 是 一 个 大 于 或 等 于 1 的 值 ， 产 范式 定义 为 


ine 1/p 
[ello = (E «| 










































































i=l 


N 
all> = » lel? 
i=1 


i.e. 


























p- 范 式 在 深度 学 习 中 往往 用 来 测量 两 个 向 量 的 差别 大 小 ， 写 作 Lp WESA 0.18) 一 样 ，] 
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中 yy 为 目标 值 向 量 ，$ 为 预测 值 向 量 。 
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热 编码 











类 的 交 


(1.16) 


会 有 一 





(1.17) 





AM 


16 优化 





N 
Ly = lly — 9 = V ^ lv — $i? (1.18) 


i=l 
WARE 


均 方 误差 (Mean Squared Error, MSE) 是 由 公式 (1.19) 所 定义 的 Lo 范式 的 平均 值 。 均 方 误 



















































































差 可 以 在 网 络 输出 是 连续 值 的 回归 问题 中 使 用 。 比 如 说 ， 两 个 不 同 图 像 在 像素 上 的 区 别 就 可 以 用 
MSE 来 测量 
Bd 2 gu - o? (1.19) 
CN UT Na Vi . 























其 中 是 样本 数据 的 大 小 ，y Lg 239073 H PrE e TERT TRU FER 





s 
Isi 








平均 绝对 误差 


与 均 方 误差 类 似 ， 平 均 绝对 误差 (Mean Absolute Error, MAE) 也 可 以 被 用 来 做 回归 任务 ， 它 
被 定义 为 £4 范式 的 平均 。 




















1 N 
= y 2 ln- 9i (1.20) 
wl 


























均 方 误差 和 平均 绝对 误差 都 可 衡量 y Ag 的 误差 ， 用 以 优化 网 络 模型 。 其 中 ， 均 方 误差 提 
供 了 更 好 的 数学 性 质 ， 从 而 让 我 们 能 更 简便 地 计算 梯度 下 降 所 需要 的 偏 导 数 。 而 在 平均 绝对 误差 
H, Xy = $0 时 ， 我 们 注意 到 上 面 公式 中 的 绝对 值 项 无 法 求 导 ， 这 对 平均 绝对 误差 来 说 是 一 个 
EC 法 解决 NEU Ay Sy; FG; 的 绝对 差 大 于 1 时 ， 均 方 误差 相 对 平均 绝对 误差 
来 说 误差 值 更 大 。 显 然 地 ， 当 (yi — Gi) > 1 时 ，(yi — 907 > lyi — pilo 































































































1.6 ”优化 


在 这 一 小 节 里 ,我们 将 描述 深度 神经 网 络 的 优化 ， 即 深度 神经 网 络 参数 训练 。 本 节 包 含 了 反 
向 传播 算法 、 梯 度 下 降 、 随 机 梯度 下 降 和 超 参 数 的 选择 等 内 容 。 

































































1.6.1 梯度 下 降 和 误差 的 反 向 传播 

如 果 我 们 有 一 个 神经 网 络 和 一 个 损失 函数 ,那么 对 于 这 个 网 络 的 训练 的 意义 是 通过 学 习 它 的 
0 使 得 损失 值 C 最 小 化 。 最 暴力 的 方法 是 通过 寻找 一 组 参数 9， 使 它 满足 ygL = 0， 以 找到 损失 
值 的 最 小 值 。 但 这 种 方法 在 实际 中 很 难 实现 ， 因 为 通常 深度 神经 网 络 参数 很 多 、 非 常 复杂 。 所 以 
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我 们 需要 考虑 一 种 叫 作 梯度 下 降 (Gradient Descent) 的 方法 ， 它 是 通过 逐步 优化 来 一 步 一 步 地 寻 
找 更 好 的 参数 来 降低 损失 值 的 。 

图 1.9 展示 了 两 个 梯度 下 降 的 例子 。 梯 度 下 降 的 学 习 过 程 从 一 个 随机 指定 的 参数 开始 ， 其 损 
RE L 随 参数 的 更 新 而 逐步 下 降 ， 其 过 程 如 箭头 所 示 。 有 具体 来 说 ， 在 神经 网 络 中 ， 参 数 通过 偏 导 
SE 被 逐步 优化 ， 优 化 过 程 为 9 := 0-088, Kha 为 学 习 率 ， 用 以 控制 步 长 幅度 。 可 见 ， 梯 
度 下 降 法 的 关键 是 计算 出 偏 导 数 OE 


L 起 始 位 置 L£ 






























































起 始 位 置 










局 部 最 小 点 局 部 最 小 点 





全 局 最 小 点 全局 最 小 点 


O wo 
B19 梯度 下 降 的 示例 ; 在 左 图 中 ,我 们 有 一 个 可 以 训练 的 参数 0 =w; 在 右 图 中 , 我 们 有 两 个 
可 以 训练 的 参数 9 = [w1, ws]。 在 梯度 下 降 里 ， 整 个 学 习 过 程 的 初始 化 参数 是 随机 的 。 在 
每 一 步 对 参数 调整 之 后 ， 损 失 C 会 慢 慢 地 减少 ， 但 无 法 保证 最 后 能 找到 全 局 最 小 的 损失 
值 ， 在 大 多 数 情况 下 ， 我 们 能 找到 的 都 是 局 部 最 小 值 





Wi 







































































反 向 传播 (BackPropagation) (LeCun et al., 2015; Rumelhart et al., 1986) 是 一 种 计算 神经 网 络 
中 偏 导 数 25 的 方法 。 为 了 使 得 表示 对 25 的 计算 更 加 清晰 ， 这 种 方法 引入 一 个 中 间 量 6 = 28, 
用 来 表示 损失 函数 C 对 于 神经 网 络 输出 z 的 偏 导 数 。 因 此 ， 这 种 方法 可 以 通过 中 间 量 6 来 计算 
损失 函数 C 对 于 每 个 参数 的 偏 导 数 ， 并 最 终 共 同 组 成 中 。 

网 络 层 的 序号 为 ! = 1,2,… ,LL， 其 中 输出 层 的 序号 为 上 。 对 于 每 个 网 络 层 ， 我 们 有 输出 zl 
中 间 值 6: = 26 和 一 个 激活 值 输出 a! = f(z!) (其 中 f 为 激活 函数 )。 下 面 是 一 个 使 用 均 方 误 
差 和 sigmoid 激活 函数 的 多 层 感 知 器 的 例子 : 已 知 z! = W'a! +b, a! = f(z!) = mes All 
L= ly a 3, "TEL SR A Ao OST JC th dB 9e = f(z!) = f) - f(z!) = 
a!(1— a0)， 以 及 损失 函数 对 于 激活 值 输出 的 偏 导数 LS = (a^ 一切。 然后， 为 了 计算 损失 函数 
对 于 输出 层 的 偏 导数 ， 可 以 使 用 链 式 法 则 ， 有 具体 如 下 : 

从 输出 层 开始 向 后 传播 误差 ， 先 计算 输出 层 的 中 间 量 : 


e 68 = 3L _ OL da” (a^ — y) © (a^ (1 — a^) 






























































































































































= azl ~ Bak Oz ~ 
Patt FAK BOM TEA d (1 = 1,2,… , 工 一 1): 
e BEA 2tl = Witlal + b!+!, p = = W+, H m — al (1— a!) 


16 优化 








A sl — OL _ OL Oz't! Oa! 
"那么 5 = Oz! Ozitl ða! Oz! 


= (W'*!)78'*! © (a'(1 — a!) 

































































































































































从 输出 层 开 始 向 后 传播 ， 计 算出 所 有 层 的 中 间 值 6! 后 ， 反 向 传播 算法 的 第 二 步 是 在 中 间 值 
6! 的 基础 上 计算 损失 函数 对 于 每 层 参数 OE, 和 SE 的 偏 导数 。 

dB zl — Wal! +b, SIG Pe = al! Rm = 1 

MA apr $5 Sin — é'(al-1)*, Fe = 5 ee mi 

最 后 ， 我 们 用 OS, 和 路 及 梯度 下 降 更 新 W! 和 以: 

°W := W! — adt, 

° b := b — a Sh 

可 见 ， 有 了 偏 导 数 中 = 2E, 25] BRAN AL MERRE BER SABE TIAN, BIRA 
到 了 损失 函数 中 的 一 个 最 小 值 ， 如 图 1.9 所 示 。 在 实践 中 ， 我 们 最 终 得 到 的 最 小 值 往往 是 一 个 局 
部 最 小 值 ， 而 不 是 全 局 最 小 值 。 但 是 ， 因 为 深度 神经 网 络 往往 可 以 提供 一 个 很 强 的 表示 能 力 ， 这 





































































































些 局 部 最 小 值 通常 会 很 接近 全 局 最 小 值 (Goodfellow et al., 2016)， 使 得 损失 值 足 够 小 。 
这 里 额外 介绍 sigmoid 的 问题 ， 当 使 用 sigmoid MY, 22 = a'(1— a), ? a 接近 于 0 或 者 1 
Wr, 9e. 会 非常 小 ， 从 而 导致 8! 非常 小 。 在 网 络 很 深 的 情况 下 ， 反 向 传播 时 6 会 越 来 越 小 ， 出 现 



































Oz 
梯度 消失 (Vanishing Gradient) 问题 ， 

















导致 模型 靠近 输入 部 分 的 参数 很 难 被 更 新 ， 模 型 无 法 训练 




























































































































































































起 来 。 而 ReLU 的 227 在 a 大 于 0 时 衡 为 1， 就 不 会 有 这 个 问题 ， 这 也 是 现在 的 深度 模型 往往 在 
隐藏 层 中 使 用 ReLU 而 不 再 使 用 sigmoid 的 原因 。 

在 梯度 下 降 中 ， 如 果 数 据 集 的 大 小 ( 即 数据 样本 的 数量 ) N 较 大 ， 则 在 每 个 迭代 中 计算 损失 
函数 C 的 计算 开销 可 能 会 较 高 。 拿 之 前 的 均 方 误差 举例 ， 我 们 可 以 把 上 式 展开 成 

£- iy - ad = 13 f - a? (1.21) 
一 了 y 2775 2 Yi à E 

在 实践 中 ， 数 据 集 很 有 可 能 会 很 大 ， 梯 度 下 降 因 需要 计算 C 而 变 得 十 分 低 效 。 随 机 梯度 下 降 
应 运 而 生 ， 其 他 对 于 L 的 计算 只 包含 少量 的 数据 样本 。 
1.6.2 ”随机 梯度 下 降 和 自 适 应 学 习 率 

与 其 是 在 每 个 迭代 中 对 全 部 训练 数据 计算 损失 函数 C， 随 机 梯度 下 降 (Stochastic Gradi- 


ent Descent, SGD) (Bottou et al., 2007) 计算 损失 值 
































时 随机 选取 一 小 部 分 的 训练 样本 。 这 些小 























样本 被 称 为 小 批量 (Mini-batch)， 而 在 这 些小 批量 世 











lL 体 大 小 被 称 为 批 大 小 (Batch Size) B。 然 











后 ， 我 们 就 可 以 ) 











Jt) BAB<NG 











EBAR (1.21)， 得 到 公式 (1.22)， 以 改进 计算 L 的 


效率 : 


1 


L= gily— 


al || = 2 


LS (y; - ab)? 


B 
(1.22) 


i=1 


























随机 梯度 下 降 的 训练 过 程 请 见 算法 1.1。 如 果 参 数 在 算法 1.1 中 更 新 了 足够 多 的 次 数 ， 那 么 


小 批量 可 以 覆盖 整个 训练 





PE 
d 








算法 1.1 随机 梯度 下 降 的 训练 过 程 
Input: 参数 0， 学习 率 a， 训 练 步 数 /迭代 次 数 5 
1: fori=0toS do 
2: ”计算 一 个 小 批量 的 C 
3: ”通过 反 向 传播 计算 OE 
4: vo — —a- 25; 
5 040+ V9 更 新 参数 
6: end for 
7: return 0; 返回 训练 好 的 参数 









































学 习 率 (Learning Rate) 控制 了 随机 梯度 下 降 中 每 次 更 新 的 步 长 。 如 果 学 习 率 过 大 ， 随 机 梯度 
下 降 可 能 无 法 找到 最 小 值 ， 如 图 1.10 所 示 。 另 一 方面 ， 如 果 学 习 率 过 小 ， 随 机 梯度 下 降 的 收敛 速 
率 将 会 变 得 十 分 缓慢 。 如 何 决定 学 习 率 是 一 个 很 困难 的 过 程 。 为 了 解决 这 个 问题 ， 需 要 使 用 自 适 
应 学 习 率 算法 ， 如 Adam (Kingma et al., 2014)、RMSProp (Tieleman et al., 2017) " Adagrad (Duchi 
etal., 2011) 等 。 其 作用 为 通过 自动 、 自 适应 的 方法 来 调整 学 习 率 ， 从 而 加 速 训练 算法 的 收敛 速度 。 
这 些 算 法 的 原理 在 于 ， 当 参数 收 到 了 一 个 较 小 的 梯度 时 ， 算 法 会 转 到 一 个 更 大 的 步 长 ， 反之 ， 如 
果 梯 度 过 大 ， 算 法 就 会 给 出 一 个 较 小 的 步 长 。 其 中 ，Adam 是 最 常见 的 自 适 应 学 习 率 算法 。 与 其 
直接 用 梯度 更 新 参数 ，Adam 首先 会 计算 梯度 的 滑动 平均 和 二 阶 动量 。 然 后 ， 如 算法 1.2 Bp. 这 
些 新 计算 的 数值 会 被 用 来 更 新 我 们 想 要 训练 的 参数 。 算 法 1.2 中 的 8, 和 85 为 梯度 的 遗忘 因子 ， 
或 者 分 别 是 其 动量 和 二 阶 动量 。 在 默认 设置 下 ，B1 和 Bo 的 值 分 别 是 0.9 和 0.999 (Kingma et al., 
2014)。 





































































































































































































图 1.10 一 个 很 大 的 学 习 率 可 能 会 加 速 训练 过 程 ， 但 会 导致 模型 很 难 训练 至 一 个 理想 的 参数 。 如 
左 图 所 示 ， 因 为 其 学 习 率 较 右 图 更 大 ， 其 损失 函数 有 可 能 在 参数 更 新 后 增加 ， 因 此 更 难 
以 接近 最 小 值 。 同 样 地 ， 右 图 的 优化 有 一 个 更 小 的 学 习 率 ， 能 更 好 地 找到 低 点 ， 但 训练 


速 度 较 慢 
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算法 1.2 Adam 优化 器 的 训练 过 程 

Input: 参数 0， 学 习 率 w， 训 练 步 数 /迭代 次 数 5，PB1 = 0.9, 83 — 0.999, e= 1078 
1: mo & 0; 初始 化 一 阶 动量 
2: vo — 0; 初始 化 二 阶 动量 
3: fort = 1 to 5 do 
25: 用 一 个 随机 的 小 批 量 计 算 梯度 

m, — Bm, a (1— f): $ (963 更 新 一 阶 动量 

vi — b2- vi 1 + (1 — b2): ($ c)? ; 更 新 二 阶 动量 

My — i 计算 一 rz s TE IP Mg 

4 c ;计算 二 阶 动量 的 滑动 平均 

VO — 一 Q Vere 

1: 0—0-- v0; 更 新 参数 


11: end for 
12: return 6; 返回 训练 好 的 参数 
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16.3 HSARA 


在 深度 学 习 中 ， 超 参数 (Hyper-Parameters) 指 和 设置 相关 的 参数 ， 比 如 层 的 数量 ， 以 及 训练 
过 程 的 设置 参数 ， 如 更 新 步 的 数量 、 批 大 小 和 学 习 率 。 这 些 设 置 参数 会 在 很 大 程度 上 影响 模型 的 
表现 ， 因 此 它们 是 组 成 一 个 理想 模型 的 重要 因素 。 

为 了 衡量 不 同 超 参数 对 于 模型 表现 的 影响 ， 我 们 通常 将 数据 集 划 分 为 训练 集 (Training Set), 
验证 集 (Validation Set) 和 测试 集 (Testing Set) 。 不 同 的 超 参数 设置 分 别 用 训练 集训 练 出 不 同 的 
模型 ， 然 后 在 验证 集 上 进行 性 能 评估 。 最 后 ， 我 们 用 在 验证 集 上 表现 最 好 的 超 参数 在 测试 集 上 做 




































































































































































最 后 的 性 能 评估 。 在 这 里 需要 注意 的 是 ， 我 们 不 能 用 测试 集 调整 超 参数 ， 不 然 就 是 已 知 考卷 试题 
的 作 浆 行为 。 
交叉 验证 























THE 














在 一 个 小 数据 集 上 ， 把 数据 集 分 为 训练 集 、 验 证 集 和 测试 集 的 做 法 会 浪费 宝贵 的 数据 。 有 具体 
来 说 ， 如 果 训 练 集 分 得 过 小 ， 可 能 会 因为 训练 数据 不 足 而 让 训练 出 来 的 模型 表现 不 佳 。 从 另 一 方 
下 来 说 ， 如 果 训 练 集 分 得 过 多 、 验 证 集 过 小 ， 模 型 也 不 能 在 一 个 小 数据 集 上 被 充分 地 评估 。 为 了 
明 决 这 个 问题 ， 可 使 用 交叉 验证 (Cross Validation)， 所 有 数据 都 能 被 用 来 训练 模型 ， 不 再 需要 验 
证 集 ， 以 充分 利用 数据 。 

在 一 个 大 折 交 叉 验 证 策略 中 ， 一 个 数据 集 将 会 被 分 成 天 个 互相 不 重复 的 子 集 ， 并 且 每 个 子 集 
包含 同样 数量 的 数据 。 我 们 将 重复 训练 模型 上 次 ， 其 中 每 次 训练 时 ， 一 个 子 集 将 会 被 选 为 测试 集 ， 
而 剩 下 的 数据 将 会 被 用 来 训练 模型 。 最 后 用 来 评估 的 结果 则 是 : 有 次 训练 后 ， 模 型 输出 性 能 《〈 如 
佳 确 度 ) 的 平均 值 。 图 1.11 展示 了 一 个 四 折 交 义 验 证 示例 。 
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的 ， 每 一 行为 一 个 子 集 )。 在 每 次 训练 中 ， 而 加 框 的 子 集 被 当 作 测试 数 和 


























训练 数据 。 最 后 模型 评估 的 结果 则 是 四 次 训练 预测 的 平均 
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图 1.11 四 折 交 叉 验 证 ( Four-Fold Cross-Validation ) 示例 。 数据 集 被 划分 为 四 个 子 集 ( 为 了 展示 目 





























到， 其 他 被 当 作 


























我 们 把 那些 用 来 使 得 一 个 模型 在 训练 集 和 测试 集 都 有 很 好 效果 的 方法 叫 作 正则 化 办 法 。 本 贡 
主要 介绍 过 拟 合 和 一 些 不 同 的 正则 化 方法 ， 如 权重 衰减 、Dropout 和 批 标准 化 。 
































1.7.1 Hs 








一 个 机 器 学 习 的 模型 为 了 减少 训练 集 上 的 损失 而 进行 的 优化 ， 并 不 能 保证 它 在 测试 集 上 的 效 





果 良 好 。 一 个 被 过 度 优化 了 的 模型 会 有 很 小 的 训练 集 误 差 但 有 很 大 的 测试 集 误差 ， 这 利 





























过 拟 合 (Overfitting). 











图 1.12 中 ， 虚 线 代表 的 多 项 式 模型 就 存在 过 拟 合 的 问题 。 这 个 模型 在 训练 集 上 过 度 一 致 ， 


















































在 测试 集 上 就 不 太 符合 。 当 使 用 一 个 这 样 过 拟 合 的 模型 在 现实 应 用 中 应 / 














的 。 相 反 地 ， 由 实 线 代 表 的 线性 模型 昌 有 很 少 的 参数 ， 但 是 却 更 符合 测试 数据 的 趋势 。 


























和 过 拟 合 相 对 的 是 欠 拟 合 (Underfitting)， 即 模型 在 训练 集 和 测试 集 上 都 有 了 很 大 的 误差 。 但 





























是 在 现实 中 ， 欠 拟 合 很 容易 解决 ， 比 如 可 以 用 一 个 更 大 的 模型 来 解决 (更 多 网 络 
等 )， 而 解决 过 拟 合 会 更 加 棘手 。 最 简单 的 一 个 方法 就 是 使 用 更 多 的 训练 数据 ， 












































能 药 ， 因 为 数据 的 获取 和 标记 都 需要 代价 。 








17.2 ”权重 衰减 
MSRM (Weight Decay) 是 一 种 简单 却 有 效 的 用 于 解决 过 拟 合 的 







































































j 新 的 数据 时 ， 是 不 可 条 


现象 为 


d zl 
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E 则 化 方法 。 它 用 





JP 











正则 项 作为 惩戒 ， 使 得 9 有 更 小 的 绝对 值 。 以 图 1.12 为 例 ， 如 果 多 项 式 模型 从 c Bh 的 参数 有 














更 小 的 绝对 值 ， 那 这 个 模型 的 上 下 摇摆 幅度 就 会 减 小 ， 能 更 好 地 拟 合 数 
的 损失 函数 的 定义 为 


Ltotal 一 L(y, 9) F AQ(0) 























届 。 用 参数 范式 作为 惩戒 
(1.23) 


1.7 正则 化 











其 中 L(y, g) 是 从 使 用 
入 是 有 比较 小 的 值 ， PNE 
最 常见 的 参数 范式 惩 














一 个 过 拟 合 的 例子 : 








深 色 点 代表 了 训练 集 














性 模型 在 训练 集 上 有 

















集 上 误差 更 小 。 我 们 可 以 说 这 个 多 项 式 模型 





个 更 大 的 损失 值 ， 但 














， 浅 色 点 代表 了 测试 集 。 虽 然 由 实 线 代 表 的 线 

















实 线 的 模型 比 




















目标 y 和 预测 外 来 计算 的 损失 函数 ，Q 是 模型 


























EB 








小 于 1, BU C ZE Lo "i 
EREKE C AS 
正 的 方法 ， 把 那些 不 重要 特征 

我 们 可 以 进 
模型 参数 wi, wo. wi? +w? =r? 
































戒 函 数 的 幅度 。 














J 对 训练 集 过 拟 合 了 


虚线 代表 的 多 项 式 模型 在 测试 








的 参数 范式 惩戒 函数 ， 

















W|| 和 Ca = 














一 个 更 大 的 惩 
EF PR LIN , 
































线 (红色 ) RAL 损失 值 ( 蓝 








有 可 能 使 得 参数 为 0 








图 1.13 AB: 原始 损失 值 的 轮廓 线 ( 红色 ) 还 有 Cs 损失 值 


oit, 

















Al (图 


深度 神经 网 络 的 参数 的 绝对 
因为 当 B <1 i 
会 让 参数 偏向 于 更 小 的 值 甚至 为 0。 
的 相对 应 参数 设 为 一 个 很 小 的 值 或 者 是 0。 
步 通 过 几何 方法 来 看 看 Ly 和 Lo 的 区 
是 一 个 半径 为 > 的 


lw| > ww2。 可 见 ，A 
这 是 模型 隐 性 地 选择 特 





别 。 由 图 1.13 所 示 的 坐标 系 里 ， 有 两 个 
1.13 左 ) 而 juwil + |wa| = 二 7 是 一 个 对 
































原始 损失 值 的 轮廓 














o 从 红色 轮廓 线 和 蓝 色 轮廓 线 交 接 的 地 方 可见 ，L1 更 

















角 线 长 为 27 的 正方 形 (图 1.13 右 )。 它 们 两 个 都 被 蓝 色 轮廓 线 表 示 。 在 图 中 ， 红 色 的 线 代表 的 是 




















初始 的 损失 C(y, 分 。 初 始 损失 和 参数 范式 惩戒 的 交点 用 














数 为 0， 两 个 轮廓 的 交接 位 于 正方 形 的 顶点 上 。 


1.7.3 Dropout 









































“又 ”标记 了 出 来 。Ci 更 有 可 能 使 得 参 

















Dropout 是 另 一 个 很 受 欢 迎 的 用 来 解决 过 拟 合 问题 方法 (Hinton et al., 2012; Srivastava et al., 

















2014)。 当 神经 元 数量 非常 多 时 ， 网 络 会 出 现 共 适 应 的 问题 ， 从 而 会 有 过 拟 合 的 现象 。 神 经 元 的 共 









































适应 指 神经 元 之 间 会 互相 依赖 。 故 而 ， 造 成 一 旦 有 














个 神经 元 失效 了 ， 就 有 可 能 所 












































经 元 都 会 失效 ， 以 至 于 整个 网 络 竣 痪 的 局 面 。 为 了 避免 参数 过 多 导致 的 共 适 应 ，Dropout 在 训练 
的 过 程 中 ， 将 隐藏 层 的 输出 按 比例 随机 设 为 0。 就 像 图 1.14 中 所 示 一 样 ， 层 会 有 几 个 神经 元 














随机 地 失去 和 其 他 层 的 连接 。 


























依赖 它 的 神 












































图 1.14 ”训练 过 程 中 对 一 个 神经 网 络 使 



















































































连接 的 神经 元 会 被 更 新 。 所 以 Dropout 法 其 实 是 在 训 


























et al., 2012)。 在 测试 过 程 当中 ，Dropout 就 不 能 被 使 月 








Dropout， 让 它 的 某 些 连 









































练 很 多 不 同 的 小 的 网 络 ， 














在 反 向 传播 当中 , 如 果 有 的 输出 a! 为 0, 那么 其 相对 应 的 那 一 层 的 偏 导数 9 也 是 0。 只 有 还 有 











Sa 




















rds 


日 了 ， 没 有 输出 会 被 设 为 0。 








参数 (Hinton 





这 就 意味 着 是 


所 有 网 络 一 起 来 预测 最 终 的 结果 。 集 成 学 习 (Ensemble Learning) 就 是 这 样 一 个 例子 (Hara et al., 








2016)， 它 用 很 多 模型 学 会 做 同一 个 任务 ， 然 后 测试 的 时 候 使 月 
性 。 关 于 Dropout 的 理论 证 明 在 原始 的 论文 里 是 没有 的 
















































































结果 ， 比 如 说 (Hara et al., 2016) 就 证 明了 它 在 集成 学 






































它 在 贝 叶 斯 里 的 有 效 性 。 


1.7.4” 批 标准 化 


HEERE (Batch Normalization) (Ioffe et al., 2015) 层 标准 化 了 网 络 的 输 H 
平均 值 变 为 0, 方差 变 为 1。 这 样 做 的 目的 是 提高 训练 的 稳定 性 。 在 训练 的 过 程 ! 
用 一 个 移动 平均 的 办 法 来 计算 每 一 批 输入 的 平均 值 和 方差 ， 以 佑 i 
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日 所 有 模型 输出 的 结果 来 提高 准确 








(Hinton et al., 2012), 但 是 近期 有 了 些 新 的 
习 里 的 有 效 性 ， 以 及 (Gal et al., 2016) 证 明了 




















上 ， 也 就 是 让 输出 的 








AES WARS 
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批 标准 化 层 会 








vir 


的 平均 值 和 方差 。 





1.7 正则 化 





每 一 批 输入 的 平均 值 和 方差 会 








动 平 均值 和 方差 不 变 来 标准 化 输入 。 


除了 提 
不 确定 性 一 样 ， 











是 根据 具体 的 那 一 批 的 随机 样 





变 得 更 加 鲁 棒 。 

















高 性 能 和 稳定 性 ， 批 标准 化 也 可 以 提升 正 
移动 平均 值 和 方差 也 同 检 








175 其 他 缓和 过 拟 合 的 方法 








F 地 引入 了 一 定 的 随机 性 ， 
本 来 决定 更 新 的 。 因 此 ， 











被 用 来 标准 化 这 一 批 输入 。 在 模型 测试 的 过 程 当中 ， 我 们 会 保持 移 




















则 化 的 作用 。 





和 Dropout 





里 对 隐藏 


层 加 一 个 








对 为 在 每 一 个 
在 训练 中 有 了 这 样 一 个 变 




















习 合 当中 ， 它 都 

















化 的 神经 网 络 会 


我 们 有 很 多 其 他 方法 来 预防 过 拟 合 ， 比 如 说 ， 早 停 法 〈Early Stopping) 或 者 数据 增强 (Data 
会 当 网 络 在 满足 一 定 的 实际 条 件 时 停止 训练 ， 比 如 说 在 验证 
述 了 损失 在 训练 过 程 可 能 会 慢 慢 增加 ， 也 就 是 过 拟 合 的 开始 ， 
练 。 








Augmentation )。 早 停 法 
高 的 精确 度 。 图 1.16 
































以 用 早 停 法 在 过 拟 合 开始 


«4 





图 1.15 





ee 的 


前 的 那个 点 停止 训 





图 像 数据 增强 的 例子 。 左 上 角 的 是 原 


数据 增强 即 增 加 现 有 训练 数据 的 大 小 ， 


以 减少 过 拟 合 ， 从 而 提高 网 络 性 


et al., 2015)。 和 





究 表明 ， 通 过 改变 音频 速度 来 增强 ， 可 
的 方法 运用 在 
比如 说 ,“ 人 类 喜欢 狗 狗 ”和 “ 狗 狗 喜欢 人 类 ” 
规定 的 同义词 来 复述 句子 (Zhang et al., 





但 是 我 们 不 能 把 同样 














方法 是 
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图 ， 其 他 图 


























如 运 | 











片 是 通过 随机 的 反 转 、 


j 反 转 、 旋 转 、 移 动 和 放 缩 等 运算 合理 生成 数据 ， 
FE 能 (Dong et al., 2017; He et al., 2016; Howard et al., 2017; Simonyan 
图 像 数据 一 样 ， 音 频数 据 也 一 样 可 以 通过 增加 噪声 或 者 其 他 改变 来 增强 。 最 近 研 
高 语音 识别 算法 的 性 能 (Ko et al., 2015). 





上 有 了 足够 
不 过 我 们 可 





平移 、 缩 近 


























字符 信 





息 上 面 ， 因 为 字符 的 大 小 和 排序 
的 意思 是 不 一 样 的 。 
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2016) F 


193 BEL A) HA 














有 它 特定 的 意思 。 
个 可 以 增强 字符 数据 的 现实 
2015)， 也 可 以 不 增强 原始 数据 ， 文 献 (Reed et al., 
表征 的 内 插 来 进行 数据 增强 。 
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测试 损失 


训练 损失 





O 批 
1.16 ”过 拟 合 的 训练 曲线 。 我 们 可 以 用 早 停 法 来 让 训练 过 程 在 开始 过 拟 合 之 时 就 停止 


wl 
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1.8 ” 卷 积 神经 网 络 

















卷 积 神经 网 络 (Convolutional Neural Network, CNN) (LeCun et al., 1989) 是 前 向 神经 网 络 的 
一 种 ， 它 在 很 多 不 同 的 领域 里 都 有 很 大 的 作用 ， 如 计算 机 视觉 (He et al., 2016; Krizhevsky et al., 
2012; Simonyan et al., 2015)、 时 序 预测 (van den Oord et al., 2016). 自然 语言 处 理 (Yin et al., 2017; 
Zhang et al., 20192) 和 强化 学 习 (James et al., 2019; Rusu et al., 2016)。 很 多 已 经 在 现实 世界 落地 的 
机 器 学 习 系统 都 是 基于 CNN 之 上 的 。 本 节 介 绍 两 种 网 络 层 : 卷 积 层 和 池 化 层 ,它们 都 是 CNN 结 
构 的 一 部 分 。 

卷 积 层 可 能 是 CNN 最 有 识别 度 的 一 个 特征 。 其 主要 思想 来 自 对 人 脑 中 并 排 处 理 视觉 输入 的 
学 习 。 和 图 1.17 所 示 的 一 样 ， 卷 积 输出 使 用 了 四 个 不 同 的 神经 元 来 处 理 同样 的 输入 图 像 区 间 。 不 
同 的 神经 元 可 能 负责 的 处 理 任 务 不 一 样 ， 如 处 理 边缘 、 颜 色 和 角度 等 任务 。 在 卷 积 层 的 神经 元 只 
是 和 局 部 有 连接 ， 并 不 是 和 前 一 层 的 所 有 单元 都 有 连接 。 卷 积 层 可 以 被 层 层 地 车 加 在 一 起 ， 也 就 
是 说 ， 一 个 卷 积 层 的 输出 可 以 作为 另外 一 个 卷 积 层 的 输入 。 卷 积 层 最 大 的 优点 是 ， 相 对 于 全 连接 
层 ， 它 需要 的 参数 会 少 得 多 ， 能 更 快 地 被 训练 出 来 。 图 1.17 展示 了 在 卷 积 层 的 每 一 个 神经 元 有 关 
于 局 部 输入 的 所 有 通道 的 信息 。 如 果 说 一 个 RGB 图 片 是 输入 ， 那 么 一 个 在 卷 积 层 的 神经 元 就 能 
知道 卷 积 核 运 算 之 后 的 一 个 局 部 区 域 的 所 有 RGB 通道 。 

在 卷 积 层 里 的 卷 积 运算 使 用 了 不 同 的 卷 积 核 来 提取 各 种 各 样 重要 的 特征 。 当 其 中 一 层 网 络 的 
输入 是 高 / 宽 为 W 的 向 量 ,并且 我 们 使 用 一 个 大 小 为 的 卷 积 核 ， 卷 积 运算 将 输入 的 向 量 切 分 为 
若干 小 区 间 ， 然 后 每 个 小 区 间 依 次 和 卷 积 核 进行 点 乘 计算 。 其 中 步 长 S 规定 了 每 个 小 区 间 之 间 的 
距离 。 若 步 长 为 2(9 = 2)， 卷 积 核 则 会 跟 每 个 距离 为 2 的 小 区 间 进 行 点 乘 运算 。 如 果 要 确保 边缘 
的 数值 也 被 很 好 地 考虑 在 内 的 话 ， 那 么 就 需要 在 边缘 填充 零 (Zero Padding). ARMADA 
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8 卷 积 神经 网 络 
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的 神经 
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图 1.17 从 样本 图 片 计算 卷 积 层 的 方法 ， 蓝 色 的 是 输入 层 ， 绿 色 为 卷 积 输出 层 。 


自如 输入 是 一 
























































通道 的 RGB 图 片 ， 那 么 卷 积 层 输出 也 有 不 同 通 道 。 和 全 连接 层 不 同 的 是 ， 卷 积 层 











元 只 和 输入 层 的 部 分 区 域 所 连接 ， 而 不 是 和 所 有 输入 都 有 连接 。 











P, WDF 


输出 
的 流程 。 


x 宽 x 输 














> Bt MI 





层 的 不 同 通道 是 怎么 和 输入 层 有 局 部 连接 的 ( 见 彩 插 


















































层 的 输出 层 大 小 就 可 以 用 公式 (1.24) 来 进行 计算 。 





WT EAE A 
S 











图 中 展示 了 卷 积 





(1.24) 






































的 深度 输出 通道 的 数量 ) 和 卷 积 核 的 数量 是 一 致 的 。 图 1.18 具体 地 展示 了 卷 积 运算 
图 1.18 中 ， 有 一 个 大 小 为 4x 4 (高 x 宽 ) 的 RBG 图 片 、 一 个 大 小 为 3x3x3 (高 
通道 ) 的 卷 积 核 ， 步 长 9 = 1， 边 缘 填 充 P = 0。 根 据 公 式 (1.24)， 





输出 值 的 高 / 宽 为 


(4 一 3 十 0)/1 十 1 = 2。 输 出 的 深度 〔 卷 积 核 的 通道 数 ) 是 1〈 因 为 只 有 一 个 卷 积 核 )。 为 了 计算 


在 每 一 个 通道 左上 角 的 那个 数值 ， 首 先 计 算 输 入 图 





片 和 卷 积 核 的 点 乘 ， 得 到 三 个 值 ， 这 三 个 值 的 


和 就 是 左上 角 的 数值 。 卷 积 运算 所 得 到 的 输出 可 以 通过 一 层 激活 函数 来 引入 非 线性 。 





池 化 层 利 月 




















日 了 图 片 相 邻 像素 类 似 的 性 质 来 进行 下 取样 。 我 们 认为 ， 合 适 的 像素 只 留 取 一 个 区 





域 里 的 最 大 值 或 者 平均 值 的 下 取样 ， 会 在 建 模 当 中 有 很 多 益处 。 通 常 有 两 种 池 化 方法 来 减少 数据 








大 小 : 最 大 值 ; 


效率 。 比 如 说 ， 
化 层 来 减 小 输 昌 
通常 来 说 ， 



























































大 小 会 减 小 计算 量 。 














也 化 和 平均 值 池 化 。 在 图 1.19 中 ， 在 一 个 4x4 的 输入 上 和 在 步 长 是 2 的 情况 下 ， 
演示 了 最 大 值 池 化 和 平均 值 池 化 的 例子 。 池 化 层 可 以 很 明显 地 减少 输出 大 小 ， 
在 一 个 卷 积 层 以 后 会 有 数 以 百 计 的 通道 ， 在 输出 被 传递 给 全 连接 层 之 前 ， 使 用 池 





提高 之 后 层 的 计算 








卷 积 层 、 池 化 层 和 全 连接 层 是 CNN 的 核心 构建 部 分 。 图 1.20 展示 了 一 个 有 两 个 
































卷 积 层 、 一 个 最 大 值 池 化 层 和 一 个 全 连接 层 的 网 络 。 这 里 需要 注意 的 是 激活 函数 可 以 同样 地 用 在 











卷 积 层 上 o 









































和 前 向 神经 网 络 不 同 的 是 ，CNN 借用 了 参数 共享 的 概念 。 在 模型 的 不 同 部 分 使 用 参数 共享 ， 
让 整个 模型 更 加 高 效 〈 更 少 的 参数 和 内 存 需 求 )， 然 后 它 也 可 以 用 来 处 理 不 同 的 数据 形式 〈 不 同 






































大 小 或 者 长 度 )。 





























第 i 神经 元 和 当前 层 第 j 神经 元 连接 。 但 在 一 个 卷 积 层 里 ， 卷 积 核 其 实 就 是 权 习 











出 的 时 候 是 被 
































E 复 使 用 的 。 对 卷 积 核 的 重复 使 用 就 减少 了 在 卷 积 网 络 里 对 参数 和 





























回想 一 下 ， 在 一 个 全 连接 层 中 有 一 个 权重 矩阵 ， 里 面 的 元 素 wig 代表 着 前 一 层 


E， 它 们 在 运算 输 
的 需求 ， 这 也 就 是 





为 什么 在 输入 和 输出 大 小 类 似 的 情况 下 ， 卷 积 层 比 全 连接 层 所 需要 的 参数 更 少 。 
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图 像 卷 积 核 输出 
4x4x3 3%3X3X1 2X21 














1.18” 卷 积 运 算 的 示意 图 ， 在 这 个 例子 里 有 一 个 大 小 为 3 x 3 x 3 x 1 的 卷 积 核 ( Filter， 也 称 为 

















率 (Ioffe et al., 2015)。 我 们 之 前 提 过 ， 一 个 批 标准 化 层 是 通过 一 个 平均 值 和 一 个 方差 来 进行 标准 
化 且 独 立 于 其 他 层 的 。 也 就 是 说 ， 批 标准 化 简化 了 在 梯度 更 新 的 时 候 不 同 层 之 间 的 关系 ， 从 而 可 





















































Kernel ) ( 尺寸 为 : 高 x 3E x 输入 通道 数 x 输出 通道 数 ) 被 用 到 了 一 个 大 小 为 4x4 (高 
x 宽 ) 的 有 3 个 输入 通道 的 RBG 图 片上 。 图片 和 卷 积 核 的 点 乘 在 不 同 的 通道 上 都 会 应 用 。 
点 乘 所 获得 的 值 最 终 会 被 求 和 ， 然 后 得 到 输出 的 左上 角 的 那个 值 


































































































最 大 值 池 化 平均 值 池 化 
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图 1.19 2 x 2 最 大 值 池 化 和 平均 值 池 化 的 例子 ， 它 们 的 步 长 为 2， 输 入 大 小 是 4x 4 








我 们 可 以 进一步 地 通过 批 标 准 化 〈 批 标准 化 层 )， 即 内 部 的 样 例 迁 移 ， 来 提高 CNN 的 训练 效 
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j 更 大 的 学 习 速 率 来 加 快 学 习 过 程 。 





1.9 ”循环 神经 网 络 
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图 1.20 ”一 个 有 两 个 卷 积 层 、 一 个 池 化 层 和 一 个 全 连接 层 的 网 络 。 图 片 使 用 NN-SVG 构造 
1.9 ”循环 神经 网 络 
循环 神经 网 络 (Recurrent Neural Networks, RNN) (Rumelhart et al., 1986) 是 另 一 种 深度 学 习 


模型 结构 ， 主 


常见 的 数据 类 型 ， 





























要 用 于 处 理 序列 数据 。 图 








像 数据 可 以 
则 被 定义 为 一 串 元 素 {x1,z2,… 

















票 的 价格 也 可 以 
序列 数据 的 一 个 重要 特点 是 ， 这 一 串 元 素 之 间 








j 一 串 交 易 金 额 来 表示 。 














] 网 格 加 数值 来 表示 ， 而 序列 数 









































作为 男 一 种 
单词 组 成 的 ， 而 股 





互相 影响 。 例 如 ， 人 们 可 以 轻松 地 根据 文章 


的 开头 ， 大 致 推测 出 文章 接 下 来 的 内 容 。 然 而 ， 针 对 这 种 元 素 之 间 的 影响 进行 建 模 是 相当 具有 挑 








战 性 的 , 尤其 是 


= 





























考虑 前 请 
与 卷 积 让 
序列 上 不 同位 


IF 


























信息 和 后 序 信息 之 间 的 影响 。 


























经 网 络 类 似 ,循环 神经 网 络 同样 使 用 
置 的 元 素 重 复 使 









































到 “深度 学 习 























的 时 候 ， 猎 在 














了 参数 共享 。 参 数 共享 得 以 让 循环 ? 























同一 组 权重 。 我 们 来 一 起 看 
从 2010 年 开始 受到 追 摊 ” 和 “从 2010 年 开始 ， 深 度 学 习 受 到 追捧 ”这 两 句 话 ] 
表达 的 是 相同 的 意思 ， 尽 管 两 句 话 的 语序 并 不 相同 。 同 样 ， 当 卷 积 




















循环 神经 
入 图 


像 相似 。 之 所 以 如 此 , 是 

















网 络 可 
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SERT 











图 片 中 的 位 置 也 不 应 该 影响 模型 做 出 正确 的 判 
以 处 理 任意 长 度 的 输入 序列 ， 这 一 点 与 卷 积 神经 网 络 可 以 处 理 任意 长 宽 上 


经 网 络 使 用 了 循环 

















个 例子 ， 卷 积 神经 网 络 需要 能 














这 一 串 序 列 非常 长 的 时 候 。 因 此 ， 循 环 神经 网 络 需要 能 够 有 效 地 积累 序列 信息 ， 




















经 网 络 对 猫 的 图 








IST 























已 元 






































对 输入 序列 : 





一 个 隐 状 态 (Hidden State), H 








的 每 个 数据 元 素 ， 循 环 单元 会 被 依次 反复 调用 并 进行 计算 。 
有 于 记录 序列 中 的 信息 。 循环 单元 的 计算 

















中 的 当前 数据 











及 循环 单元 之 前 的 隐 状 态 。 循 环 单元 根据 

















隐 状 态 也 将 








j 在 下 一 轮 计算 当 














(Cell) 作为 基本 的 计算 单元 。 
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包含 两 个 输入 , 分 别 











因此 循环 单元 中 会 维 


的 输 
针 


经 网 络 对 
多 学 
其 实 
片 进 行 分 类 











户 


是 序列 


两 个 输入 计算 新 的 隐 状 态 作为 输出 ， 新 的 























hy 


， 如 图 1.21 所 示 。 defin 4 





Wiz; hi4] + b 
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的 循环 单元 使 用 线性 变换 (公式 25): 


(1.25) 


5 






































公式 (1.25) ! 











E121 ”循环 神经 网 络 结 
后 输出 新 的 隐 状 态 hy. 

































































偏 置 b 也 可 以 加 入 
一 个 深度 计算 图 ， 而 深度 较 大 的 计算 图 可 能 导致 梯度 爆炸 


折 的 隐 和 状态 当中 。 由 于 线性 核 W 会 被 











小 于 1， 则 将 可 能 导 
入 序列 很 长 ， 那 么 使 用 简 




















(cell) 接收 数值 zy 和 前 序 信息 的 隐 状 态 hii, A 


， 隐 状态 hii 与 输入 数据 zi 组 合 在 一 起 , 然后 与 线性 核 WW 做 矩阵 乘法 ， 同 时 








或 者 梯度 消失 。 当 W 的 特 和 和 











蛙 完全 


于 1 时 ,可 能 导致 梯度 爆炸 ,而 梯度 爆炸 会 让 学 习 过 下 














致 梯度 消失 ， 梯 度 消失 会 让 模型 无 法 
单元 的 循环 神经 网 络 将 










































































简单 循环 单元 有 严重 的 遗忘 问题 ， 当 给 定 句子 “我 是 中 国人 ， 我 的 母语 是 E 





























的 循环 单元 ， 并 常用 于 处 到 
亦 常 被 简称 为 LSTM。 


























单元 会 很 容易 预测 出 结 
来 在 法 国 工 作 ， 我 的 母语 是 









































文 ”， 但 是 当 句子 很 长 时 ， 如 “我 是 中 国人 ， 我 去 英国 
”， 隐 状态 被 多 次 更 新 后 ， 简 单 循环 单元 很 可 能 无 法 预 涡 
的 结果 。 长 短期 记忆 (Long Short-Term Memory, LSTM) (Hochreiter et al., 1997) 是 一 种 更 加 先进 












































LE 长 序列 中 元 素 之 间 的 景 












































与 简单 循环 








元 不 同 ，LSTM 循环 单元 有 两 个 状态 量 : 











状态 (Hidden State)， 记 为 h;。 计 算 单元 状态 
示 )， 这 条 信息 高 速 路 贯穿 整个 序列 并 






























































流 可 以 较为 便捷 地 穿越 整个 序列 ， 因 此 LSTM 
之 间 的 影响 ， 即 长 
计算 机 制 利用 sigmoid Hor ER BORE h 
1 之 间 。 也 就 是 说 ， 当 sigmoid 函数 输出 为 1 时 ， 相 对 应 的 信息 会 被 完整 地 保留 。 与 之 相反 ， 当 
为 0 时 ， 相 对 应 的 信息 会 完全 丢失 。 





sigmoid FÉ Zi ir H 




















期 记忆 。 与 此 同时 ，LSTM 基于 门 (Gate) 的 机 
WARNS RA Bn, AN 























在 LSTM 当 





Gate) 和 输出 门 Output Gate)。 首 先 ， 遗忘 门 根据 新 的 输入 来 决定 单元 状态 当中 是 否 
应 该 被 遗忘 。 其 次 ， 输 入门 决定 哪些 输入 信息 应 该 被 加 入 单元 状态 中 ， 目 的 是 长 期 存储 这 部 分 信 


恩 并 取代 被 遗忘 的 信息 。 最 后 的 输入 门 根据 最 新 的 单元 状态 ,决定 LSTM 循环 单元 的 输出 。 
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] LSTM 作为 循环 单元 的 循环 社 











反复 计算 ， 循 环 神经 网 络 实际 上 构建 ] 
E 值 幅度 大 














失效 。 与 之 相反 , 若 W 的 特 生 
了 效 地 根据 学 习 目 标 进 行 优 化 。 如 果 输 
了 可 能 遇 到 这 两 种 梯度 问题 的 其 中 之 一 。 


简单 循环 
读书 ， 后 















































单元 状态 〈Cell State)， 记 为 C,; K 
的 过 程 实际 上 构建 了 一 条 信息 高 速 路 (如 图 
了 简单 的 计算 过 程 。 由 于 这 条 信息 高 速 路 让 信息 



































可 以 较 好 地 考虑 长 序列 当中 两 个 距离 较 远 的 元 素 
央 计 算 隐 状态 。 这 种 基于 门 的 
sigmoid 函数 的 值 域 介 于 0 和 


Bl, 4) Al Ae AST] (Forget Gate). 4471] CInput 
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1.9 ”循环 神经 网 络 








© 
o 











( Cell State ) C, F 


图 1.22 ”使 用 LSTM 循环 单 


























元 的 循环 神经 网 络 示意 图 。LSTM 循环 单元 包括 两 个 状态 ， 即 单元 状态 
0 隐 状 态 (Hidden State ) hi。 除 此 之 外 ， 还 有 三 个 门 ( Gate) 用 于 控制 












































信息 的 取舍 。 本 图 依据 文献 (Olah, 2015) 重新 绘制 
































个 基于 门 的 计算 机 制 可 以 






































方程 (1.26) 定义 ， 其 中 o 代表 simoid 函数 。 























遗忘 门 : fi=o(Wilh1; 2] + by) 
输入 门 : i, = o(W;[hi-1; v] + bi) 
输出 门 : o; = o(Wo|hi—1; £] + bo) 
更 新 单元 状态 : C, = fi x Cri +i x tanh(Wo[hi-1; £t] + bc) 
更 新 隐 状 态 : hi = o, x tanh(C;) (1.26) 
循环 神经 网 络 有 很 多 种 ， 而 LSTM 是 其 中 之 一 ， 还 有 GRU (Gated Recurrent Units). gr ff 















































研究 工作 尝试 对 比 了 不 同 结构 的 循环 神经 网 络 ， 但 是 关于 哪 一 种 结构 更 优 ， 目 前 尚 无 定论 (Cho 
et al., 2014; Jozefowicz et al., 2015). 
































在 深度 学 习 中 ， 循 环 神经 网 络 主要 用 于 处 理 序列 数据 ， 如 自然 语言 和 时 间 序 列 (Chung et al., 
2014; Liao et al., 2018b; Mikolov et al., 2010)， 同 时 也 会 用 于 处 理 强化 学 习 的 问题 (Peng et al., 2018; 
Wierstra et al., 2010)。 根 据 输 入 和 输出 的 关系 ， 循 环 神经 网 络 的 结构 在 不 同 的 场景 也 会 有 些许 变 
化 。 例 如 ， 在 文本 分 类 的 问题 中 ， 循 环 神经 网 络 的 输入 是 一 串 单词 序列 ， 而 输出 是 单个 代表 类 别 
的 标签 (Lee et al., 2016; Zhang et al., 2019a)。 在 机 器 翻译 (Bahdanau et al., 2015; Luong et al., 2015; 


Sutskever et al., 2014) 或 者 








































































































自动 摘要 (Nallapati et aL, 2017) 的 任务 中 ， 循 环 神经 网 络 的 输入 和 输出 




















均 是 一 串 单词 序列 。 关 于 更 多 的 细节 ， 感 兴趣 的 读者 可 以 查看 我 们 其 他 的 讲义 ， 链 接见 读者 服务 。 
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1.10 ES 


习 的 实现 样 例 





AM, 


绍 深度 学 


sorLayer 2.0. 


1.10.1 张 量 和 梯度 


张 量 (Tensor) 是 TensorFlow 中 最 基本 的 计算 单元 ， 特 指 ; 
这 些 张 量 本 身 并 不 存储 计算 结果 ， 而 是 为 获取 TensorFlow 
过 程 提 供 便利 。 在 TensorFlow 2.0 ! 


成 ， 如 tf.constant， 
生 该 结果 的 计算 











session 中产 


tf.matmul 等 。 
































因为 在 Eager execution 设计 思 
阵 乘法 示例 中 ， 我 们 可 以 通 
阵 的 乘法 。 























代码 1.1 


TN, 3 


运算 图 和 会 话 
通过 tf.constant 创建 矩阵 ， 


习 的 实现 样 例 ， 其 中 模型 的 代码 将 基 








于 Python 3、TensorFlow 2.0 和 Ten- 








十 算 函 数 的 输出 ， 由 计算 函数 生 


T 























， 无 须 手动 运行 会 话 〈Session )， 














的 运行 细节 仅 在 后 端 可 见 。 


比如 ， 在 下 面 的 矩 
Hit tf.matmul 计算 输出 为 另 一 个 和 矩 














并 通 


TensorFlow 中 基于 张 量 的 和 矩阵 乘法 





>>> import tensorflow as tf 
>>> a = tf.constant([[1, 
# tf.Tensor( 

# [[1 2] 

# [1 2]], shape=(2, 
>>> b = tf.constant([[1], [2]]) 
# tf.Tensor( 

# [[1] 

# [2]], shape=(2, 
>>> c = tf.matmul(a, b) 
# tf.Tensor( 

# [[5] 

3 [5]], shape=(2, 


2], [1, 


2]D 


2), dtype-int32) 


1), dtype-int32) 


1), dtype-int32) 




















在 深度 





经 网 络 的 前 向 传播 ! 














Ea 








, Tensors 实例 会 





N! 





JA BER, 从 而 形成 一 


个 运算 图 。 因此 , 我 




















们 可 以 通过 TensorFlow 自 带 的 














动 

















2.0 更 是 ] 














神经 网 
播 和 权重 更 新 则 可 以 在 作用 域 之 外 。tf.GradientTape 将 所 有 在 作 
到 Tape 中 ， 然 后 通过 反 疝 自动 差分 机 利 





提供 了 tf.GradientTape 方法 ， 





差分 和 运算 





图 相关 











功能 ， 在 反 向 传播 时 计算 梯度 。TensorFlow 

















用 于 计算 输 






































tape.gradient() 被 调 
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i 入 变量 对 被 记录 操作 的 梯度 。 





络 的 前 向 传播 和 损失 函数 的 计算 应 当 在 tf.GradientTape 作用 域 之 内 ， 而 反 向 传 























域内 执行 的 运算 都 记录 


上 1， 计算 每 个 运算 符 和 输入 变量 相对 应 的 梯度 。 直 到 
lH, tf.GradientTape 所 占用 的 资源 才 会 被 释放 。 











1.10 


MI 
Ls 


度 学 习 的 实现 样 例 





代码 1.2 


TensorFlow 和 TensorLayer 中 的 梯度 计算 





import tensorflow as tf 


import tensorlayer as tl 


def train(model, dataset, 


optimizer): 


# e 定 一 个 TensorLayer 模型 











遍历 数据 ， 





for x, y in dataset: 
# 构建 tf.GradientTape 的 作用 域 
with tf.GradientTape() as tape: 

prediction = model(x) # 前 向 传播 

loss = loss fn(prediction, y) £ 损失 函数 
# 反 向 传播 并 计算 梯度 


# 然后 释放 tf.GradientTape 所 占用 的 资 


其 中 x 为 输入 ，y 为 输出 


产 


gradients = tape.gradient(loss, model.trainable_weights) 


# 根据 梯度 ， 


利用 优化 器 更 新 权重 


optimizer.apply_gradients(zip(gradients, 


H 





model.trainable weights)) 





1.10.2 


Z 
流 
译 ， 
样 
pi 





sg XU, 











I 下 


H 














定义 模型 
在 TensorLayer 2.0 F, WA! (Model) 是 一 个 包含 多 个 Layer 的 实体 ， 
间 传 播 运算 。TensorLayer 2.0 提供 了 两 套 定义 模型 的 接 
而 动态 模型 接口 让 前 向 传播 更 加 灵活 。 
模型 一 旦 编译 后 ， 前 向 传播 将 不 
即刻 执行 (Eager Execution), | 
面 的 实现 样 





例 所 示 ， 我 们 可 以 将 














并 且 定义 了 Layer 














口 ， 其 中 静态 模型 














J 接口 让 用 户 可 以 更 加 


























静态 模型 家 而 要 


能 修改 。 与 之 不 同 的 是 , 动态 模型 
j 且 前 向 传播 是 可 以 修改 的 。 











HP 

















F 动 构建 








e 





运算 AH 











可 以 像 普 通 Python 代码 一 











静态 模型 和 动态 模型 的 差别 总 











态 模型 


间 
3L 











Ur 























调 
参数 














其 次 , 静态 模型 


供 了 一 个 新 的 功能 ， 即 tf. function, HEIA 


in_channels 








型 








E 声 明 的 同时 





的 Layer fi 
的 连接 关系 ，TensorLayer 可 以 自动 推断 每 个 Layer 输入 变量 的 大 小 ， 

Model 初始 化 的 时 候 ， 
之 间 的 连接 构建 运算 图 。 
在 动态 模型 初始 化 时 是 不 需要 
的 时 候 才 能 确定 。 


L1 








然而 ， 


aE HH 
PA ti e 


也 会 定义 与 其 他 Layer 的 连接 关系 〈 即 前 向 传播 )。 

















明确 模型 的 输入 和 输出 即 可 ， 而 TensorLayer 将 自 
动态 模型 则 不 同 ， 前 向 传播 的 顺序 〈 即 




















显 式 地 明确 
4 的 前 向 传播 











不同 的 是 ， 动 态 模 型 的 前 向 传播 更 
传播 ， 同 时 也 可 以 根据 需要 选择 执行 或 者 此 


要 明确 
因此 ， 动 态 模型 





的 ， 因 为 动态 模型 的 前 向 传播 直到 前 所 
4 无 法 自动 推断 每 个 Layer 输入 变量 的 大 小 ， 





, 











Layer. 
旦 定义 即 























此 更 加 易于 加 速 计算 








固定 ， 























加 灵活 。 例 如 ， 
6 过 部 分 





Layer 的 计算 。 


结 成 两 个 方面 。 
并 相应 构建 权重 。 
Layer 之 间 


向 函数 forwar 
必须 i 


i^c, Hb 
5 Layer 之 
此 ， 
动 根据 Layer 
的 连接 关系 ) 
d 被 实际 
通过 输入 


























TR 


E 


BH 























过 程 。TensorFlow 2.0 提 
布 器 套 在 函数 上 ， 加 速 函 数 内 的 计算 。 与 静态 模 
用 户 可 以 根据 不 同 的 输入 和 参数 来 控 





制 前 向 
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代码 1.3 ”静态 模型 样 例 ， 多 层 感知 器 ( MLP ) 





import tensorflow as tf 
from tensorlayer.layers import Input, Dense 


from tensorlayer.models import Model 


# 包含 了 三 个 全 连接 层 的 多 层 感知 器 模型 
def oe ne 
ni = Input(inputs. shape) 
# 因为 明确 定义 了 Layer 之 间 的 连接 关系 
# 可 以 自动 推断 每 个 Layer 的 in_channels 


nn = Dense(n_units=800, act=tf.nn.relu) (ni) 








TT 











nn = Dense(n_units=800, act-tf.nn.relu) (nn) 
nn = Dense(n_units=10, act=tf.nn.relu) (nn) 
# 根据 连接 关系 自动 构建 模型 

M = Model(inputs=ni, outputs=nn) 


return M 


MLP = get_mlp_model([None, 784]) 

# 开启 eval 模式 

MLP .eval() 

# 给 定 输入 数据 

# 该 计算 过 程 可 以 通过 TensorFlow 2.0 中 的 @tf.function 加 速 
outputs = MLP(data) 








代码 14 ”动态 模型 样 例 ， 多 层 感知 器 ( MLP ) 





import tensorflow as tf 
from tensorlayer.layers import Input, Dense 


from tensorlayer.models import Model 


class MLPModel (Model): 
def | init. (self): 
super(MLPModel, self). init O 
# 因为 无 法 明确 Layer 之 间 的 连接 关系 ， 必 须 手动 提供 in channels 
# 给 定 输入 数据 的 大 小 ， 即 784 
self.densel = Dense(n_units=800, act=tf.nn.relu, in_channels=784) 
self.dense2 = Dense(n_units=800, act-tf.nn.relu, in_channels=800) 


self.dense3 = Dense(n units-10, act-tf.nn.relu, in_channels=800) 
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def forward(self, x, foo=False): 
# 定义 前 向 传播 
z = self.densel(z) 
z = self.dense2(z) 
out = self.dense3(z) 
# 灵活 控制 前 向 传播 
if foo: 
out = tf.nn.softmax(out) 


return out 


MLP = MLPModel () 

# 开启 eval 模式 

MLP.evalQ 

# 给 定 输入 数据 

# 通过 参数 foo 控制 前 向 传播 

outputs_1 = MLP(data, foo=True) # 使 用 softmax 
outputs_2 = MLP(data, foo=False) # 不 使 用 softmax 





110.3 BEE 


TensorLayer 2.0 为 用 户 提供 了 大 量 的 神经 网 络 层 ， 也 支持 Lambda Layer 以 方便 用 户 创造 高 
度 自 定义 的 层 。 如 下 所 示 ， 最 简单 的 例子 是 把 一 个 lambda 表达 式 直 接 传 入 Lambda Layer。 用 户 
可 以 通过 一 个 自 定义 输入 参数 的 函数 和 fn_args 选项 来 初始 化 或 者 调用 Lambda Layer. 














































































































import tensorlayer as tl 
x = tl.layers.Input([8, 3], name=’ input’) 
y = tl.layers.Lambda(lambda x: 2*x)(x) # 没有 可 训练 的 权重 





def customize fn(input, foo): # 参数 可 以 通过 Lambda Layer 的 fn args 定义 


k 


return foo input 


z = tl.layers.Lambda(customize_fn, fn_args={’foo’: 42})(x) # this layer has no weights. 

















pan 


Lambda Layer 拥有 可 训练 的 权重 。 下 面 的 示例 可 以 展示 如 何在 自 定义 函数 外 定义 权 习 
通过 fn_weights 选项 传 入 Lambda Layer. 
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import tensorflow as tf 
import tensorlayer as tl 
a = tf.Variable(1.0) # 自 定 义 函 数 作用 域 之 外 的 权重 


def customize_fn(x): 








return x +a 


tl.layers.Input([8, 3], name=’ input’) 


ta] 
Il 


yi 





y = tl.layers.Lambda(customize fn, fn_weights=[a])(x) # 通过 fn weights 传递 权 习 























此 外 ，Lambda Layer 还 可 以 使 Keras 与 TensorLayer 兼容 。 用 户 可 以 定义 一 个 Keras 模型 ， 
并 将 其 以 一 个 函数 的 形式 传 入 Lambda Layer， 因 为 Keras 的 模型 是 可 被 调用 的 。 同 时 ， 为 了 让 
自 定 义 模 型 和 Keras 模型 一 起 被 训练 ，Keras 模型 中 可 被 训练 的 权重 需要 被 手动 提取 ， 然 后 传 入 
Lambda Layer 中 。 

























































































import tensorflow as tf 

import tensorlayer as tl 

# 定义 一 个 Keras 模型 

layers = [ 
tf.keras.layers.Dense(10, activation=tf.nn.relu), 
tf.keras.layers.Dense(5, activation-tf.nn.sigmoid), 
tf.keras.layers.Dense(1, activation-tf.identity) 

] 

perceptron - tf.keras.Sequential(layers) 

# 获得 Keras 模型 的 可 被 训练 的 权重 

_ = perceptron(np.random.random([100, 5]).astype(np.float32)) 





class CustomizeModel(tl.models.Model): 
def | init. (self): 
super(CustomizeModel, self). init  O 
self.dense - tl.layers.Dense(in channels-1, n units-5) 
self.lambdalayer - tl.layers.Lambda(perceptron, perceptron.trainable variables) 
# 将 可 以 训练 的 权重 传递 给 Lambda Layer 





def forward(self, x): 
z = self.dense(x) 
self.lambdalayer(z) 


return z 


zZ 
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1.10.4 多 层 感知 器 : MNIST 数据 集 上 的 图 像 分 类 


] 户 可 以 通过 TensorLayer 2.0 中 提供 的 Model. Layer 和 其 他 支持 性 的 API 来 灵活 、 直 观 地 
设计 和 实现 自己 的 深度 学 习 模 型 。 为 了 帮助 读者 更 好 地 了 解 如 何 用 TensorLayer 实现 一 个 深度 学 
习 模 型 ， 这 里 首先 介绍 一 个 利用 多 层 感知 器 在 MNIST 数据 集 (LeCun et al., 1998) 上 分 类 图 片 的 示 
例 。 该 数据 集 包 含 了 70,000 张 手写 数字 的 图 片 。 一 个 深度 学 习 模型 的 建立 通常 会 包含 五 个 步骤 ， 
分 别 是 数据 加 载 、 模 型 定义 、 训 练 、 测 试 和 模型 存储 。 

TensorLayer Æ tl.files 中 提供 了 多 个 常用 数据 集 的 API， 包 括 MNIST、CIFAR10、PTB、 
CelebA 等 ,比如 说 ,我 们 可 以 用 t1.files.load_mnist_dataset 和 一 个 具体 的 shape 加 载 MNIST 
数据 集 。 通 常 来 说 ， 数 据 集会 被 划分 为 三 个 子 集 : 训练 集 、 验 证 集 和 测试 集 。 
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# 通过 TensorLayer 加 载 MNIST 数据 集 
X train, y train, X val, y val, X test, y test = tl.files.load mnist dataset(shape-(-1, 
784)) # 每 个 MNIST 图 像 的 原始 尺寸 为 28 * 28， 即 一 共有 784 个 像素 点 





























就 像 在 1.10.2 节 里 提 到 的 一 样 ， 在 TensorLayer 2.0 中 ， 一 个 多 层 感 知 器 模型 可 以 通过 静态 模 
型 或 者 动态 模型 两 种 方法 来 实现 。 在 这 个 例子 中 ， 我 们 的 模型 有 三 个 Dense 层 ， 且 为 静态 模型 ， 
同时 ， 用 Dropout 来 防止 过 拟 合 现象 的 产生 。 
























































Z 









































# 构建 模型 

ni = tl.layers.Input([None, 784]) # 根据 输入 数据 定义 尺寸 
# 多 层 感 知 器 

nn = tl.layers.Dropout (keep=0. 8) (ni) 

nn = tl.layers.Dense(n_units=800, act=tf.nn.relu) (nn) 
nn = tl.layers.Dropout (keep=0.5) (nn) 

nn = tl.layers.Dense(n_units=800, act=tf.nn.relu) (nn) 
nn = tl.layers.Dropout (keep=0.5) (nn) 

nn = tl.layers.Dense(n_units=10, act=None) (nn) 

# 给 定 输入 和 输出 ， 构 建 模型 


network = tl.models.Model(inputs-ni, outputs=nn, name="mlp") 




















多 层 感 知 器 在 MNIST 数 据 集 上 的 训练 是 指 对 其 权重 的 学 习 。 用 户 可 以 通过 调用 t1.utils.fit 
函数 来 触发 训练 过 程 。 除 此 之 外 ， 我 们 还 需要 通过 tl.utils.test 函数 来 验证 模型 的 性 能 。 






































# 定义 一 个 函数 来 评估 模型 的 准确 度 
# 与 损失 函数 不 同 ， 这 个 函数 不 用 于 更 新 模型 
def acc(_logits, y_batch): 





return tf.reduce mean( 
tf.cast( 
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tf.equall 
tf.argmax(_logits, 1), 
tf.convert to tensor(y batch, tf.int64)), 
tf.float32), 


name-'accuracy' 


# 训练 
tl.utils.fit( 
network, # 模型 
train op-tf.optimizers.Adam(learning rate-0.0001), # 优化 器 
cost-tl.cost.cross entropy, # 损失 函数 
X train-X train, y train-y train, # 训练 集 
acc=acc, 4 评估 指标 
batch size-256, # 批 样 本 数量 
n_epoch=20, # 训练 轮 数 
X_val=X_val, y_val=y_val, eval_train=True, # 验证 集 





# 测试 
tl.utils.test( 
network, # 训练 好 的 模型 
acc=acc, # 评估 指标 
X_test=X_test, y_test=y_test, # 测试 集 
batch size-None, # 批 样本 数量 ， 如 果 为 None 则 将 测试 集 一 起 输入 模型 ， 因 此 当 且 仅 当 测 试 集 
# 很 小 的 时 候 可 以 将 此 设置 为 None 


cost=tl.cost.cross_entropy # 损失 函数 




















最 后 ， 多 层 感 知 器 模型 的 权重 可 以 保存 至 本 地 的 一 个 文件 中 ， 使 得 我 们 可 以 在 后 面 需要 的 时 
候 恢 复 模型 参数 ， 用 于 推理 ， 该 多 层 感 知 器 示例 的 完整 实现 代码 链接 见 读者 服务 。 





















































# 将 模型 权重 保存 到 文件 中 


network.save_weights(’model.h5’) 
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1.10.$“ 卷 积 神经 网 络 : CIFAR-10 数据 集 上 的 图 像 分 类 


CIFAR-10 数据 集 (Krizhevsky et al., 2009) 是 一 个 通用 的 、 具 有 一 定 挑战 性 的 图 像 分 类 基准 测 
试 。 此 数据 集 一 共 包含 10 类 数据 ， 其 中 每 类 分 别 有 6000 张 32 x 32 RGB 图 片 ， 且 每 张 图 片 只 
专注 于 描述 单个 物体 ， 如 狗 、 飞 机 、 船 舶 等 。 使 用 TensorLayer 2.0 中 的 Dataset 和 Dataloader 
APIs， 我 们 可 以 很 简单 地 加 载 CIFAR-10 并 对 其 做 数据 增强 。 
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# 定义 数据 增强 
def _fn_train(img, target): 
#1. 随机 切割 长 宽 均 为 24 的 一 小 块 图 片 
img = tl.prepro.crop(img, 24, 24, False) 
#2. 随机 水 平 翻转 图 片 
img = tl.prepro.flip_axis(img, is_random=True) 
#3. 正则 化 : 减 去 像素 点 的 平均 值 并 除 以 方差 


img = tl.prepro.samplewise_norm(img) 

















target = np.reshape(target, ()) 


return img, target 


# 加 载 训练 集 

train ds = tl.data.CIFAR10(train_or_test=’train’, shape-(-1, 32, 32, 3)) 

# dataloader 加 载 数据 集 和 数据 增强 算法 

train dl = tl.data.Dataloader(train ds, transforms-[ fn train], shuffle-True, 


batch. size-batch size, output. types-(np.float32, np.int32)) 


# 加 载 测试 集 

test ds = tl.data.CIFAR10(train_or_test=’test’, shape-(-1, 32, 32, 3)) 
# dataloader 加 载 测 试 集 

test dl = tl.data.Dataloader(test ds, batch size-batch size) 


# 遍历 数据 集 
for X_batch, y_batch in train_dl: 
# 训练 、 测 试 模型 的 代码 


















































在 这 个 示例 里 ， 我 们 将 使 用 带 有 批 标准 化 (Ioffe et al., 2015) 的 卷 积 神经 网 络 来 对 CIFAR-10 
中 的 图 片 进行 分 类 。 该 模型 有 两 个 卷 积 模块 ， 其 中 每 个 模块 含有 一 个 批 标准 化 层 。 模 型 的 最 后 包 
含 了 三 个 全 连接 层 。 该 卷 积 网 络 示例 的 完整 实现 代码 链接 请 见 读者 服务 。 



































# 包含 了 BatchNorm 的 卷 积 神经 网 络 
def get_model_batchnorm(inputs_shape) : 
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# 自 定 义 权重 初始 化 


W_init = tl.initializers.truncated_normal (stddev=5e-2) 








W_init2 = tl.initializers.truncated_normal (stddev=0.04) 


b init2 = tl.initializers.constant(value=0.1) 


# 输入 层 


ni = Input(inputs. shape) 


# 第 一 个 卷 积 层 Conv2d, WAR BatchNorm 和 池 化 层 MaxPool 

nn = Conv2d(64, (5, 5), (1, 1), padding=’SAME’, W init-W init, b_init=None) (ni) 
nn = BatchNorm2d(decay=0.99, act=tf.nn.relu) (nn) 

nn = MaxPool2d((3, 3), (2, 2), padding=’ SAME’) (nn) 





# 第 二 个 卷 积 层 Conv2d, WAR BatchNorm 和 池 化 层 MaxPool 





Conv2d(64, (5, 5), (1, 1), padding=’SAME’, W_init=W_init, b_init=None) (nn) 


nn = BatchNorm2d(decay=0.99, act=tf.nn.relu) (nn) 
nn = MaxPool2d((3, 3), (2, 2), padding=’ SAME’) (nn) 


# 卷 积 层 的 输 





传递 给 三 个 全 连接 层 


nn = Flatten() (nn) 


nn = Dense(384, act=tf.nn.relu, W_init=W_init2, b_init=b_init2) (nn) 


nn = Dense(192, act=tf.nn.relu, W_init=W_init2, b_init=b_init2) (nn) 


nn = Dense(10, act=None, W_init=W_init2) (nn) 


# 给 定 输入 和 输出 ， 构 建 模 型 


M = Model(inputs-ni, outputs=nn, name=’ cnn’) 


return M 





1.10.6 


聊天 机 器 人 《Chatbot) 的 设计 通 





序列 到 序列 模型 : 聊天 机 器 人 

















常 涵盖 了 语 





间 和 文字 对 话 的 应 用 。 在 这 个 示例 中 ,我们 将 简 
































化 这 一 设计 ， 并 考虑 文字 输入 和 反馈 的 情形 。 因 此 ， 序 列 到 序列 模型 (Seq2seq) (Sutskever et al., 


2014) 是 实现 聊天 机 器 人 的 一 个 很 好 的 选择 。 
此 把 聊天 机 器 人 的 输入 和 输出 定义 为 句子 ， 
去 对 输入 句子 以 另 一 句 话 的 形式 做 适当 的 区 


翻译 , 但 在 其 他 序列 -序列 应 用 场景 中 同样 具有 良好 的 应 用 前 景 ,如 交通 预测 (Liao et al., 2018a,b)、 








该 模型 需要 序列 作为 输入 和 输出 








Alte, 我 们 可 以 在 






































又 可 被 理解 为 是 文字 的 序列 。seq2seq 模型 会 被 训练 





























应 。5 




















BA seq2seq 模型 在 提出 的 时 候 主要 应 用 于 机 器 











































































































文本 自动 摘要 (Liu et al., 2018; Zhang et al., 2019b) 等 。 
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在 实践 中 ， 一 个 seq2seq 模型 由 两 个 RNN 组 成 ， 其 一 为 编码 RNN， 其 二 为 解码 RNN。 编 


f RNN 会 学 习 一 个 对 于 输入 语句 的 表示 ， 然 后 解码 RNN 便 可 尝试 生成 一 个 针对 输入 的 回应 。 
TensorLayer 库 提 供 的 API 可 以 在 一 行 以 内 生成 一 个 Seq2seq 模型 。 
























































# Seq2seq 模型 

model = Seq2seq( 
decoder seq length-decoder seq length, # 解码 的 最 大 长 度 
cell enc-tf.keras.layers.GRUCell, # 编码 RNN 的 循环 单元 
cell dec-tf.keras.layers.GRUCell, # 解码 RNN 的 循环 单元 
n_layer=3, # 编码 RNN 和 解码 RNN 的 层 数 
n units-256, # RNN 的 隐 状 态 大 小 


1 


cy 








C 


embedding_layer=t1.layers .Embedding(vocabulary_size=vocabulary_size, 
embedding_size=emb_dim), # 编码 RNN 的 嵌入 层 

















下 面 展 示 了 一 些 基于 Seq2seq 的 聊天 机 器 人 模型 的 结果 ， 聊 天 机 器 人 的 完整 实现 代码 链接 请 
见 读者 服务 。 该 模型 可 以 在 获取 一 个 输入 句子 后 输出 多 种 可 能 的 结 呈 
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Query » happy birthday have a nice day 
» thank you so much 

» thank babe 

» thank bro 

» thanks so much 


» thank babe i appreciate it 
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本 章 将 介绍 传统 强化 学 习 的 基础 ， 并 概览 深度 强化 学 习 。 我 们 将 从 强化 学 习 中 的 基本 定义 





和 概念 开始 ， 包 括 智能 体 、 环 境 、 动 作 、 状 态 、 奖 励 函 数 、 马 尔 可 夫 〈Markov) 过 程 、 马 尔 可 夫 






































奖励 过 程 和 马尔 可 夫 决 策 过 程 ， 随 后 会 介绍 一 个 经 典 强 化 学 习 问 题 一 一 赌博 机 问题 ， 给 读者 提供 


对 传统 强化 学 习 潜在 机 理 的 基本 理 
奖励 过 程 和 价值 函数 估计 的 结合 产生 了 在 如 















































色 大 多 数 强 化 学 习 方 法 





解 。 这 些 概念 是 系统 化 表达 强化 学 习 任 务 的 基石 。 马 尔 可 夫 















































的 核心 结果 一 一 贝尔 曼 








应 


(Bellman) 方程 。 最 优 价值 函数 和 最 优 集 略 可 以 通过 求解 贝尔 曼 方 程 得 





方程 的 主要 求解 方式 : 动态 规划 (Dynamic Programming), RIF- 


差分 (Temporal Difference) 方法 。 


我 们 进一步 介绍 深度 强化 学 习 策 略 优化 ， 


两 大 类 : 基于 价值 的 优化 和 基于 策略 的 优化 。 在 基于 价值 的 优化 







































































对 策略 和 价值 的 拟 合 。 策 
， 我 们 介绍 基于 梯度 的 方法 ， 

















到 ， 还 将 介绍 三 种 贝尔 曼 


FZ (Monte-Carlo) 方法 和 时 间 





略 优化 的 内 容 将 会 被 分 为 

















如 使 用 深度 神经 网 络 的 深度 Q 网 络 (Deep Q-Networks); 在 基于 策略 的 优化 中 ， 我 们 详细 介绍 确 








定性 策略 梯度 (Deterministic Policy Gradient) 和 随机 性 策 


























咯 梯度 (Stochastic Policy Gradient)， 并 


提供 充分 的 数学 证 明 。 结 合 基于 价值 和 基于 策略 的 优化 方法 产生 了 著名 的 ActorCritic 结构 ， 这 























2. 简介 


导致 诞生 了 大 量 高 级 深度 强化 学 习 算法 。 














本 章 介 绍 强化 学 习 和 深度 强化 学 习 的 基础 知识 ， 包 括 基本 概念 的 定义 和 解释 、 强 化 学 习 的 一 
些 基 本 理论 证 明 ， 这 些 内 容 是 深度 强化 学 习 的 基础 。 因 此 ， 我 们 鼓励 读者 能 够 掌握 本 章 的 内 容 后 
































再 去 学 习 之 后 的 章节 。 下 五 

















， 从 强化 学 习 上 


的 基本 概念 开 





F 始 学 习 。 








如 图 2.1 所 示 ， 智 能 体 (Agent) 与 环境 (Environment) 是 强化 学 习 的 基本 元 素 。 环境 是 智能 
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体 与 之 交互 的 实体 。 如 图 2.2 右边 所 示 ， 一 个 环境 可 以 是 一 个 雅 达 利 乒 乓 球 游 戏 (Pong Game) 。 
智能 体 控 制 一 个 球拍 来 反弹 小 球 ， 从 而 使 环境 产生 变化 。 智 能 体 的 “交互 ”是 通过 预先 定义 好 的 
动作 集合 (Action Set) A = {41, Ao...} 来 实现 的 。 动 作 集 合 描述 了 所 有 可 能 的 动作 。 在 这 个 乒乓 
球 游戏 中 ， 动 作 集合 是 球拍 { 向 上 移动 ,向 下 移动 }。 那 么 强化 学 习 的 目的 就 是 教会 智能 体 如 何 很 
好 地 与 环境 交互 ， 从 而 在 预先 定义 好 的 评价 指标 (Evaluation Metric) 下 获得 好 的 成 绩 。 在 乒乓 球 
游戏 中 ， 评 价 指标 是 玩家 获得 的 分 数 。 若 小 球 穿 过 了 对 手 的 防线 ， 智 能 体 则 获得 奖励 = 1。 相 
反 ， 若 小 球 穿 过 了 智能 体 的 防线 ， 则 智能 体 获得 奖励 = 一 1。 















































图 2.1 智能 体 与 环境 


Es 











































































































E 
CA 


是 完全 可 观 
度 和 运动 方 























图 22 两 类 游戏 环境 : 围棋 ( 左边 ) 的 观测 包含 了 环境 状态 的 所 有 信息 ， 这 个 环境 
测 EE 雅 达 利 乒乓 球 ( 右边 ) 的 观测 如 果 只 有 单 帧 画面 ， 不 能 包含 小 球 的 速 
向 ， 这 个 环境 是 部 分 可 观测 的 






































我 们 现在 通过 图 2.1 来 看 看 智能 体 与 环境 的 关系 细节 。 在 任意 的 一 个 时 间 步 (Time Step) 
t， 智 能 体 首 先 观测 到 当前 环境 的 状态 S:， 以 及 当前 对 应 的 奖励 值 Re。 基于 这 些 状态 和 奖励 信 
息 ， 智 能 体 决定 如 何 行动 。 智 能 体 要 执行 的 动作 A, 从 环境 得 到 新 的 反馈 ， 获 得 下 一 时 间 步 的 
状态 Sua 和 奖励 Ror1。 对 环境 状态 s Cs 是 一 个 与 时 间 步 t 无 关 的 通用 状态 表示 符号 ) 的 观 
测 〈Observation) 并 不 一 定 能 保证 包含 环境 的 所 有 信息 。 如 果 观 测 只 包含 了 环境 的 局 部 状态 信息 
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21 简介 





(Partial State Information ) ， 这 个 环境 是 部 分 可 观测 的 〈Partially Observable ) 。 而 如 果 观 测 包 含 了 
































环境 的 全 部 状态 
在 实践 中 ， 观 测 通常 

















信息 。 





















































中 遗漏 任何 信息 ， 而 应 该 可 以 把 所 有 信息 提供 给 智能 体 。 









































为 了 更 好 地 理解 


部 分 


可 观测 环境 和 完 4 











的 围棋 游戏 是 一 个 典 











速度 和 运动 方向 并 不 


右边 的 雅 达 利 乒 乓 球 游戏 ! 
能 从 单 帧 画 


型 的 完全 可 观测 环 ] 
， 如 果 观 测 是 单 帧 画 
面 中 获得 。 





























浇 的 例子 ， 环 境 的 信息 是 所 有 的 棋子 的 位 置 。 


言 息 (Complete State Information)， 这 个 环境 是 完全 可 观测 的 (Fully Observable). 
是 系统 真实 状态 的 函数 ， 使 得 我 们 有 时 很 难 辨别 观测 是 否 包 含 了 状态 的 所 有 


一 个 更 容易 理解 的 方法 是 从 信息 角度 ， 一 个 完全 可 观测 的 环境 不 应 从 整个 环境 的 潜在 状态 


























他 可 观测 环境 的 区 别 ， 我 们 来 看 两 个 例子 : 图 2.2 左边 











j 在 图 2.2 

































































在 很 多 强化 学 习 














的 文献 中 ， 在 环境 对 












































间 步 无 关 的 通 | 
部 分 可 观测 的 ， 智 能 
时 时 ， 动 作 是 基于 
为 了 从 环境 中 给 
态 而 在 每 一 个 时 间 
些 情况 下 ， 奖 励 隐 



































给 智能 体 ] 












































体 不 能 直接 获得 




















网 测量 






































(Observation) 而 不 是 真 了 
提供 反馈 ， 一 个 奖励 函数 (Reward Function) 记 为 R， 会 根据 环境 状 
步 上 产生 一 个 立即 奖励 immediate Reward) Rt， 并 将 其 发 送 给 智能 体 。 在 一 
B 数 只 取决 于 当前 的 状态 ， 即 Ri = 
过 了 对 手 的 防线 ， 玩 家 会 立即 获得 正 数 的 奖励 。 这 个 例子 
在 很 多 情况 下 ， 奖 励 函 数 不 仅 取决 于 当前 状态 ， 而 








R(S;). 

















面 ， 就 是 一 个 部 分 可 观测 环境 。 


例如 ， 在 乒乓 球 游戏 中 ， 
， 奖 励 函 


大 | 








为 小 球 的 





这 是 


智能 体 是 完全 可 观测 的 条 件 下 ， 动 作 a (a 是 一 个 与 时 
动作 表示 符号 ) 通常 是 基于 状态 s 表示 的 智能 体 动 作 。 而 如 果 环 境 对 智能 体 是 
环境 潜在 状态 (Underlying State) 的 信息 ， 












































对 此 在 没有 其 他 









































如 果 小 球 穿 
数 只 取决 于 当前 状态 ,但 是 



























































和 动作 。 


作 ， 
要 考虑 另 一 个 智能 体 


状态 -动作 对 的 序列 。 



































在 强化 学 习 : 

















| 以 记录 智能 























中 随机 采样 而 来 的 ， 该 状态 分 布 记 为 po， 从 而 有 So ~ po(:)。 例 如 
围棋 的 开始 状态 则 可 以 是 棋子 在 棋盘 上 的 任意 位 置 。 




















的 


态 总 是 小 球 在 画 画 

















并 重复 模仿 执行 。 





个 简单 的 例子 是 : 如 果 我 们 需要 





和 这 个 智能 
这 时 ， 基 于 








对 智能 体 模 仿 整个 连续 序列 有 足够 的 指导 性 意义 。 
» SWE (Trajectory) 是 一 系列 的 状态 、 动 作 和 奖励 ; 





正中 间 。 而 








体 运动 过 程 ， 














一 个 动作 的 偏差 会 导致 后 续 状 态 和 动作 都 难 
的 状态 -动作 对 (State-Action Pair)， 而 且 需 要 考虑 
基于 当前 状态 和 动作 的 函数 ， 都 无 法 




















当前 状态 的 奖励 函数 ， 或 # 











取决 于 当前 的 动作 ， 甚 至 可 能 是 之 前 的 状态 
个 智能 体 记 住 环 境 中 另 一 个 智能 体 的 一 系列 连续 动 





























:以 对 齐 ， 那 么 这 个 奖励 不 仅 需 
































(So, Ao, Ro, $1, A1, Ri,---) 





本 如 何 和 环境 交互 。 轨迹 的 初始 状态 So, 是 从 起 始 状态 分 布 (Start-State Distribution) 





， 雅 达 利 乒乓 球 游戏 开始 的 状 





















































一 个 状态 到 下 一 个 状态 的 转移 (Transition) 可 以 分 为 : 要 么 是 确定 性 转移 过 程 (Deterministic 


Transition Process)， 要 么 是 随机 性 转移 过 程 (Stochastic Transition Process) 。 对 村 
下 一 时 刻 的 状态 S 由 一 个 确 


程 ， 





cM 

















性 函数 支配 : 








AE 


St = f (Sr, At), 














F 确 定性 转移 过 











(2.1) 
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其 中 Sai 是 唯一 的 下 一 个 状态 。 而 对 于 随机 性 转移 过 程 ， 下 一 时 刻 的 状态 Sea 是 用 一 个 概 
率 分 布 (Probabilistic Distribution) 来 描述 的 : 




















Sia ~ p(Sua|Su At) (2.2) 


而 下 一 时 刻 的 实际 状态 是 从 其 概率 分 布 中 采样 得 到 的 。 

一 个 轨迹 有 时 候 也 称 为 片段 (Episode) 或 者 回合 ， 是 一 个 从 初始 状态 (Initial State) 到 最 终 
状态 〈Terminal State) 的 序列 。 比 如 ， 玩 一 整 盘 游戏 的 过 程 可 以 看 作 一 个 片段 ， 若 智能 体 赢 了 或 
者 输 了 这 盘 游 戏 , 则 到 达 最 终 状 态 。 在 一 些 时 候 ， 一 个 片段 可 以 是 由 多 局 子 游戏 (Sub-Games) 组 
成 的 《而 不 仅仅 是 一 盘 游 戏 )。 比 如 在 雅 达 利 乒乓 球 游戏 中 ， 一 个 片段 可 以 包含 多 个 回合 。 

我 们 用 两 个 重要 的 概念 来 结束 本 小 节 : 探索 (Exploration) 与 利用 (Exploitation, A BHR 
叫 守 成 )， 以 及 一 个 著名 的 概念 : 探索 -利用 的 权衡 (Exploration-Exploitation Trade-off)。 利 用 指 的 
是 使 用 当前 已 知 信 息 来 使 智能 体 的 表现 达到 最 佳 ， 而 智能 体 的 表现 通常 是 用 期 望 奖励 (Expected 
Reward) 来 评估 的 。 举 例 来 说 ， 一 个 淘金 者 发 现 了 一 个 每 天 能 提供 两 克 黄 金 的 金 矿 ， 同 时 他 也 知 
道 最 大 的 金 矿 可 以 每 天 提供 五 克 黄 金 。 但 是 如 果 他 花费 时 间 去 找 更 大 的 金 矿 ， 就 需要 停 下 挖掘 当 
前 的 金 矿 ， 这 样 的 话 如 果 找 不 到 更 大 的 金 矿 ， 那 么 在 找 矿 耗费 的 时 间 中 就 没有 任何 收获 。 基 于 这 
位 淘金 者 的 经 验 ， 去 探索 新 的 金 矿 会 有 很 大 的 风险 ， 淘 金 者 于 是 决定 继续 挖掘 当前 的 金 矿 来 最 大 
化 他 的 奖励 (这 个 例子 中 奖励 是 黄金 的 数量 )， 他 放弃 了 探索 而 选择 了 利用 。 淘 金 者 选择 的 策略 
(Policy〉 是 贪心 (Greedy) 策略 ， 即 智能 体 持续 地 基于 当前 已 有 的 信息 来 执行 能 够 最 大 化 期 望 奖 
励 的 动作 ， 而 不 去 做 任何 的 冒险 行为 ， 以 免 导致 更 低 的 期 望 奖 励 。 

探索 是 指 通过 与 环境 交互 来 获得 更 多 的 信息 。 回 到 淘金 者 的 例子 中 ,探索 指 的 是 淘金 者 希望 
花费 一 些 时 间 来 寻找 新 的 金 矿 ， 而 如 果 他 找到 更 大 的 金 矿 ， 那 么 他 每 天 能 获得 更 多 的 奖励 。 但 是 
为 了 获得 更 大 的 长 期 回报 (Long-Term Return)， 短 期 回报 (Short-Term Return) 可 能 会 被 牺牲 。 淘 
金 者 需要 面 对 在 探索 与 利用 间 抉 择 的 难题 , 要 决定 当 一 个 金 矿 产量 为 多 少时 应 当 进 行 利用 而 少 于 
多 少时 应 当 开始 探索 。 上述 的 例子 描述 了 探索 -利用 的 权衡 问题 , 这 个 问题 关乎 智能 体 如 何平 衡 探 
索 和 利用 ， 是 强化 学 习 研 究 非 常 重要 的 问题 。 我 们 下 面 进一步 通过 赌博 机 问题 (Bandit Problem) 
来 讨论 它 。 




































































































































































































































































































































































































































































































































































2.2 ”在 线 预测 和 在 线 学 习 


2.2.1 简介 


在 线 预 测 (Online Prediction) 问题 是 一 类 智能 体 需 要 为 未 来 做 出 预测 的 问题 。 假 如 你 在 夏 威 
夷 度假 一 周 ， 需 要 预测 这 一 周 是 否 会 下 雨 ; 或 者 根据 一 天 上 午 的 石油 价格 涨幅 来 预测 下 午 石油 的 
价格 。 在 线 预测 问题 需要 在 线 解 决 。 在 线 学 习 和 传统 的 统计 学 习 有 以 下 几 方 面 的 不 同 : 

。 样 本 是 以 一 种 有 序 的 《Ordered) 方式 呈现 的 ， 而 非 无 序 的 批 (Batch) 的 方式 。 
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。 我 们 更 多 需要 考虑 最 差 


情 有 所 掌控 。 


















































况 而 不 是 平均 情况 ， 因 为 我 们 需要 保证 在 学 习 过 程 中 随时 都 对 事 





























。 学 习 的 目标 也 是 不 同 的 ， 在 线 学 习 企 图 最 小 化 后 悔 值 (Regret)， 而 统计 学 习 需 要 减少 经 验 








风险 。 我 们 会 稍 后 对 后 1 
如 图 2.3 AU Aas, 单 辟 赌博 机 (Single-Armed Bandit) 是 一 种 简单 的 赌博 机 ， 智 能 体 通 过 下 


直 进行 介绍 。 










































































拉 机 械 手 辟 来 和 这 个 赌博 机 进行 互动 。 当 这 个 机 器 到 达 头 奖 的 时 候 ， 这 个 智能 体 就 会 得 到 一 个 奖 








励 。 在 赌场 中 ， 我 们 常常 能 
一 只 手臂 。 奖 励 值 的 分 布 P(r 


















































见 很 多 赌博 机 被 摆 在 一 排 。 一 个 智能 体 就 可 以 选择 去 下 拉 其 中 任何 
作 a 为 条 件 ， 它 对 于 不 同 的 赌博 机 来 说 是 不 同 的 ， 但 是 























对 某 一 台 赌 博 机 来 说 是 固定 的 。 智 能 体 在 一 开始 是 不 知道 奖励 分 布 的 ， 而 只 能 通过 不 断 的 实验 和 


尝试 来 增进 对 分 布 的 了 解 。 





要 在 每 个 时 间 步 上 从 众多 的 赌博 

















体 的 目标 是 将 其 做 出 一 些 选 择 后 所 得 到 的 奖励 最 大 化 。 智 能 体 需 















































Bandit，MAB)， 如 图 2.3 ' 
自由 。 
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了 选择， 我 们 把 这 种 游戏 称 为 多 臂 赌博 机 (Multi-Armed 
Ro MAB 给 予 了 一 个 智能 体 有 策略 地 选择 拉 下 哪 一 根 拉 杆 的 















































A|B 

















A|B|A Z |A|B|A 7^ 


赌博 机 赌博 机 





























赌博 机 





单 辟 赌 博 机 
图 
































A|B|A L^ AIBIALZ 


[ra 


赌博 机 赌博 机 
































多 臂 赌博 机 





























机 ( 左 ) 与 多 辟 赌 博 机 C) 





我 们 尝试 通过 一 般 的 强化 学 习 方 法 来 解决 MAB 问题 。 智 能 体 的 动作 a 用 来 选择 具体 拉 哪 一 
根 拉 杆 。 在 这 个 动作 完成 以 后 ， 它 会 得 到 一 个 奖励 值 。 在 时 间 步 t 的 一 个 动作 a 的 价值 定义 为 





我 们 试图 用 它 来 选择 动作 。 如 


























fii HS SOR Qla), Tfi Qla) 














= EL[R4 | A: =a 




































































我 们 知道 了 每 个 动作 a 的 真实 的 动作 值 9(a)， 那 么 解决 这 个 问题 
就 很 简单 ， 只 需 始 终 选择 对 应 最 大 q 值 的 动作 即 可 。 然 而 ， 现 实 中 我 们 往往 要 估计 gq 值 ， 把 它 的 
近 g(a) 的 值 。 
















































































对 于 展示 探索 -利用 的 权衡 问题 ,MAB 可 以 作为 一 个 很 好 的 例子 。 当 我 们 已 经 对 一 些 状态 的 

















q 值 进 行 估计 之 后 ， 如 果 一 个 智 
的 (Greedy)， 因 为 它 一 直 在 利 





























体 一 直选 择 有 最 大 Q 值 的 动作 的 话 ， 那 么 这 个 智能 体 就 是 贪心 
计 过 的 4 值 。 如 果 一 个 智能 体 总 是 根据 最 大 化 Q 值 来 选 






































取 动 作 ， 那 么 我 们 认为 这 样 的 智能 体 是 有 
估计 值 进行 利用 〈Exploitation)， 在 大 多 数 但 
























































定 探索 (Exploration) 性 的 。 只 做 探索 或 者 只 对 已 有 
§ 况 下 都 不 能 很 好 地 改善 策略 。 
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一 个 种 单 的 基于 动作 价值 的 〈Action-Value Based) 方法 是 ， 通 过 将 在 时 间 t 前 选择 动作 a 所 


获得 的 总 体 奖励 除 以 这 个 动作 被 选择 的 次 数 来 估算 Qi(a) 的 值 : 
























































Da — 在 时 间 前 选择 动作 a 的 奖励 什 的 总 和 _ Dio Ri Tae 
0 ”在 时 间 t 前 动作 a 被 选择 的 次 数 TT 

















1, 的 值 在 z 为 真 时 为 1， 和 否则 为 0。 一 种 贪心 的 策略 可 以 写成 : 








A; = arg max Q: (a) (2.3) 





然而 ， 我们 也 可 以 把 这 个 贪心 策略 转化 成 有 一 定 探 索性 的 策略 ， 即 让 它 以 6 的 概率 去 探索 其 
他 动作 。 我们 把 这 种 方法 叫 作 e- 贪 心 (e-Greedy)， 因 为 它 在 概率 为 e 的 情况 下 随机 选择 一 个 动作 ， 
而 在 其 他 情况 下 ， 它 的 动作 是 贪心 的 。 如 果 我 们 有 无 限 的 时 间 步 长 ， 那 么 就 可 以 保证 Qila) 收敛 
K qla) TERRE, 这 个 简单 的 基于 动作 -价值 的 方法 也 是 一 种 基于 在 线 学 习 (Online Learning) 
的 方法 。 

让 我 们 以 多 辟 赌 博 机 问题 为 例 来 具体 介绍 在 线 学 习 。 假 设 我 们 在 每 个 时 间 步 + 上 观测 到 了 开 
R R:， 一 个 简单 的 用 来 找 最 佳 动作 的 想法 是 通过 R, FA, 来 更 新 q 的 估计 。 之 前 介绍 的 用 来 计 
算 平均 值 的 办 法 是 对 所 有 在 时 间 t 之 前 选择 A, 的 奖励 值 求 和 ， 然 后 除 以 A, 出 现 的 次 数 。 这 样 
更 像 一 个 批量 学 习 ， 因 为 每 一 次 我 们 都 得 对 一 批 数 据点 进行 重新 计算 。 在 线 学 习 的 方法 则 利用 一 
个 移动 的 平均 值 ， 每 次 运算 都 基于 之 前 的 估算 结果 ， 如 QA) = QA) — QICAO/N; Qua (Az) 
= Qi( Ai) + Ri/No Qi 是 在 Ay 被 选择 过 i 次 以 后 的 gq 估计 值 ，N 是 hi 被 选择 的 次 数 。 
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2.2.2 fails ES E LT 


当 我 们 有 天 > 2 RIEPEN, Sd EE TS E t= 1,2,---,T PR-AFR. E 
任何 时 间 +， 如 果 我 们 下 拉 的 手 辟 是 第 i 只 ， 那 么 相应 地 也 会 观察 到 奖励 Ri 









































算法 2.3 多 臂 赌博 机 学 习 
初始 化 K 只 手臂 
定义 总 时 长 为 全 
每 一 只 手臂 都 有 一 个 对 应 的 v; € [0, 1]。 每 一 个 奖励 都 是 独立 同 分 布地 从 v; 中 采样 得 到 的 
fort =1,2,--- ,T do 
智能 体 从 K 只 手臂 中 选择 A, = d 
环境 返回 奖励 值 向 量 Ri = (Rt, R, RE) 
智能 体 观 测 到 Ri 
end for 
















































































从 传统 意义 上 来 说 ， 我 们 会 尝试 最 大 化 奖励 值 。 但 是 在 随机 多 臂 赌博 机 CStochastic Multi- 
Armed Bandit) 里 ,我 们 会 关注 男 外 一 个 指标 “Metric)， 即 后 悔 值 (Regret)。 在 nn 步 之 后 的 后 悔 
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值 被 定义 为 


n n 
RE, = max Ri - Ri 
NS t t 
j=1,2,…,K 4 = 

















WEBER nP, BEER IK RAZA; 第 二 项 是 在 n 步 中 ， 真实 获得 
的 奖励 之 和 。 
对 为 我 们 的 动作 和 回报 带 来 了 随机 性 ， 为 了 选择 最 好 的 动作 ， 我 们 应 该 尝试 最 小 化 后 悔 值 的 
期 望 值 。 我 们 需要 把 两 种 不 同 的 后 悔 值 的 期 望 值 区 分 开 来 : 后 悔 值 和 伪 后 悔 值 (Pseudo-Regret ) 
的 期 望 值 。 我 们 将 后 悔 值 的 期 望 值 定义 为 
























































































































































IRE] = E[ max r2 Ri 2 Ri (2.4) 
GR S t=1 


我 们 将 伪 后 悔 值 的 期 望 值 定义 为 











RE, = ma » 
j=1,2,…,T 








(2.5) 





2_ BR- DOR 
t=1 t=1 















































以 上 两 种 后 悔 值 最 主要 的 区 别 在 于 它们 最 大 化 和 计算 期 望 值 的 顺序 是 不 一 样 的 。 后 悔 值 的 期 
望 值 会 相对 更 难 计算 一 些 ， 这 是 因为 对 于 伪 后 悔 值 来 说 ， 我 们 只 需要 优化 后 悔 值 的 期 望 值 ， 而 对 
于 后 悔 值 的 期 望 值 来 说 ， 我 们 则 需要 每 次 试验 时 都 找到 最 优 的 后 悔 值 再 取 期 望 值 。 而 这 两 个 值 满 
足 一 定 关系 ， 即 E[RE,,] > RE,,。 
定义 m 为 vi 的 平均 值 ， 而 v; 是 第 ;只 手臂 的 奖励 值 ， 必 = maxi-12…7。 在 一 个 随机 的 
环境 下 ， 我 们 把 公式 (2.5) 改写 为 
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RE, = nu* — E (2.6) 





2 Ri 
t=1 

















一 种 最 小 化 伪 后 悔 值 的 方法 是 选择 最 好 的 那 只 手臂 来 下 拉 ， 并 通过 之 前 介绍 的 e- 贪 心 策略 来 
获得 样本 。 一 种 更 先进 的 方法 叫 作 置信 上 界 〈Upper Confidence Bound, UCB) 算法 。 置 信 上 界 算 
法 使 用 霍 夫 丁 引 理 〈Hoeffding's Lemma) 来 估计 置信 上 界 ， 然 后 选择 那 只 基于 目前 估计 对 应 最 大 
奖励 平均 值 的 手臂。 

我 们 现在 开始 介绍 置信 上 界 策略 。 具体 关于 置信 上 界 算法 在 随机 多 辟 赌 博 机 中 对 后 悔 值 的 优 
化 可 以 在 (Bubeck et al., 2012) 中 找到 。 我 们 现在 来 具体 看 一 看 置信 上 界 基于 奖励 进行 策略 优化 的 
过 程 。 尽 管 在 随机 MAB 里 ， 奖 励 是 从 一 个 分 布 中 采样 得 到 的 ， 这 个 奖励 函数 分 布 在 时 间 上 是 稳 
定 的 。 以 e- 贪 心 策略 为 例 ，e- 贪 心 以 一 定 概率 〈 值 为 e) 来 探索 那些 非 最 优 动作 ,但 问题 是 ， 它 认 
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为 所 有 的 非 最 优 动作 都 是 一 样 的 ， 从 而 不 对 这 些 动作 进行 任何 
动作 ， 则 可 能 需要 优先 尝试 那些 没有 采用 过 的 或 




















公式 (2.3) 来 解决 这 个 问题 : 


式 中 ，N 


A; = arg max 区 +c 
































lnt 
N; (a) 





区 别 对 待 。 
首 采 用 次 数 更 少 的 动作 。 置 

















如 果 我 们 想 尝 试 每 一 个 
言 上 界 算 法 通过 改写 























(2.7) 





a) 是 动作 a 在 到 时 间 t 前 被 选择 的 次 数 ，c 是 一 个 决定 还 需要 进行 多 少 次 探索 的 正 实 


数 。 如 果 我 们 有 一 个 稳定 的 奖励 函数 分 布 ， 可 以 通过 公式 (2.7) 来 选择 动作 。 当 Ni(a) 为 零 时 ， 认 

















q 值 估算 的 不 确定 性 ; 随 着 a 








被 选择 的 次 数 增加 ， 它 上 








为 动作 a 有 最 大 值 。 为 了 更 好 地 了 解 置信 上 界 算法 的 具体 运作 方式 ， 


平方 根 项 反映 了 我 们 对 a 的 

















的 不 确定 性 也 在 减 小 。 同 样 地 ， 当 除 a 





外 的 








动作 被 选择 后 ， 不 确定 性 就 变 大 了 ， 因 为 Int 增 大 但 是 Ni(a) 保持 不 变 。t 的 自 

















时 间 步 的 影响 越 来 越 小 。 置 信 














2.2.3 wine Sea 


上 界 算法 给 出 动作 q 值 的 上 限 ， 而 


























随机 MAB 的 回报 函数 是 











成 立 。 因 此 ,在 奖励 函数 不 再 简 简单 















































地 












































决定 的 情况 F, 我 们 
博 机 的 情景 中 ， 第 ; 
SAE l € {1,2,:… , K} 


ri E 
































只 手臂 在 时 间 上 上 的 奖励 为 Ri € [0,1]. 





有 人 可 能 会 想 ， 








万 一 对 抗 者 干脆 把 所 有 的 奖励 都 设 为 0 了 























可 以 得 到 任何 的 奖励 。 事实 上 ， 就 算 对 抗 者 可 以 自由 决定 奖励 的 多 少 ， 
反之 给 玩家 足够 多 的 奖励 作为 诱惑 ， 让 他 们 有 赢 的 感觉 ,但 是 其 实 玩 了 许多 轮 后 ， 最 终 还 


为 0， 
是 对 抗 者 获 利 。 
算法 2.4 ROM DLE BENE 














而 对 抗 者 会 决定 在 这 个 时 刻 的 奖 
了 可 能 观测 到 每 一 个 机 器 的 奖励 Ry (-) 0 
一 个 对 抗 者 到 底 对 一 个 玩家 之 前 的 动作 选择 了 解 多 少 。 








奖励 Rit, th 




















多 的 利益 根据 玩家 的 动作 来 











者 (Oblivious Adversary) , | 
Adversary)。 第 二 点 是 一 个 玩 















































c 




















个 确 


如 果 我 们 有 
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定性 玩家 ’ 或 


2 ob 


ZR He 


健忘 对 抗 者 和 非 健忘 对 抗 者 的 























c 表示 

















然 对 数 使 得 新 的 
置信 程度 。 



































随时 间 不 变 的 概率 分 布 来 表示 的 ,但 是 在 现实 中 , 这 个 条 件 往往 不 
些 稳定 概率 分 布 决定 ， 而 
RMS SEIL (Adversarial Multi-Armed Bandit)。 在 对 抗 多 辟 赌 
同时 一 个 玩家 在 t 时 所 拉 的 手 辟 会 被 











一 个 对 抗 者 (Adversary) 












































呢 ? 如 果 这 种 情况 发 生 ， 就 没有 人 

















也 不 会 把 所 有 的 奖励 都 设 
































十 机 的 基本 设 定 。 在 每 一 个 时 间 步 上 ， 智 能 体 都 会 选择 一 只 手臂 h, 
励 值 向 量 玉 , 。 这 个 智能 体 有 可 能 只 能 观测 到 它 所 选择 的 手臂 的 




































































分 两 点 来 完 
这 个 很 重要 ， 对 抗 者 可 





整 描述 这 个 问题 。 第 一 点 是 ， 
能 会 为 了 获得 更 


























峰 整 机 器 。 我 们 将 那些 不 考虑 过 去 玩家 历史 的 对 抗 者 叫 作 健 志 对 抗 
i 将 那些 考虑 过 去 历史 的 对 抗 者 叫 作 非 健忘 对 抗 者 (Non-Oblivious 
够 了 解 到 奖励 值 向 量 的 多 少 内 容 。 我 们 将 那些 玩家 知道 关于 奖 
励 值 向 量 的 全 部 信息 的 情况 叫 作 全 信息 博弈 〈Full-Information Game)， 而 将 那些 玩家 只 知道 一 部 
分 回报 向 量 信息 的 情况 叫 作 部 分 信息 博弈 (Partial-Information Game) 
DXA, 只 对 一 个 非 确定 性 (Non-Deterministic ) 玩家 才 显 现 出 来 。 



































个 玩家 的 策略 不 变 , 一 个 对 抗 直 




















就 很 容易 让 后 悔 值 RE 2 n/2, 
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其 中 交代 表 这 个 玩家 下 拉手 臂 的 次 数 。 所 以 , 全 信息 非 确定 性 玩家 更 有 研究 价值 , 可 以 使 用 Hedge 























算法 来 解决 这 个 问题 。 


算法 2.4 对 抗 多 臂 赌博 机 








初始 化 KK 手臂 


fort = 1,2,--- 





T do 











智能 体 在 K RFR heh I 
对 抗 者 选择 一 个 奖励 值 向 量 R, = (R1, R?,---, RE) e [0,1* 




















智能 体 观察 到 奖励 RE (根据 具体 的 情况 也 有 可 能 看 到 整个 奖励 值 向 量 


end for 












































al 





























在 算法 2.5 中 ， 我 们 首先 把 每 只 手臂 的 函数 G 都 设 为 零 ， 然 后 使 用 Softmax 来 获得 一 个 新 

















动作 的 概率 密度 函数 (Probability Density Function)» n 是 一 个 用 来 控制 温度 的 正 值 参数 。G 函数 























更 新 是 通过 把 所 有 的 手臂 的 新 奖励 值 都 加 起 来 ， 从 而 使 有 最 高 奖励 值 的 手臂 有 最 大 的 概率 被 选 ! 
BJ. 我们 把 这 个 算法 叫 作 Hedge. Hedge 也 是 部 分 信息 博弈 方法 的 一 个 基础 。 如 果 我 们 把 一 个 智能 



























































































































































体 的 观察 局 限 到 只 有 刀 :， 那 么 就 需要 把 奖励 标量 扩展 成 一 个 向 量 ， 这 样 它 才 可 以 被 Hedge 使 用 。 


















































探索 和 利用 的 指数 加 权 算 法 (Exponential-Weight Algorithm for Exploration and Exploitation，Exp3 ) 
即 为 一 个 基于 Hedge 来 解决 不 完全 信息 博 弃 的 算法 。 它 进一步 利用 了 p(t) 和 平均 分 布 《Uniform 





Distribution) 





et al., 1995) ! 

































































的 结合 来 确保 所 有 的 机 器 都 会 被 选 到 ， 达 到 了 平衡 探索 和 利用 的 目的 。 文 献 (Auer 
有 关于 探索 和 利用 的 指数 加 权 算 法 更 详尽 的 介绍 






































算法 2.5 针对 











对 抗 多 臂 赌博 机 的 Hedge 算法 
ae 





初始 化 K H3 





kt 


局 


月 
i dort me | OK 


fort — 1,2,- 


TP do 








智能 体 从 t) 分 布 中 选择 A, = ip, n 





exp(Gi(t — 1)) 
35$ exp(nG;(t — 1)) 





pi(t) = 


智能 体 观 测 到 奖励 ge 


让 G;,(t) 


end for 


= G(t — 1) + gi, Vi € [1, K] 





2.2.4 ”上下文 赌博 机 


上 下 文 赌博 机 (Contextual Bandit) 有 的 时 候 也 被 叫 作 关联 搜索 (Associative Search) 任务 。 我 
们 把 关联 搜索 任务 和 非 关 联 搜 索 (Non-Associative Search) 任务 放 在 一 起 ， 以 更 好 地 了 解 它 们 的 
意义 。 我 们 刚刚 所 描述 的 多 辟 赌 博 机 就 是 一 个 非 关 联 搜索 任务 。 当 一 个 任务 的 奖励 函数 是 稳定 的 
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时 候 ， 我 们 只 需要 找到 那个 最 好 的 动作 。 当 一 个 任务 是 不 稳定 的 时 候 ， 我 们 就 需要 把 它 的 变化 记 
录 下 来 ， 这 个 是 非 关 联 搜索 任务 的 范畴 。 对 于 强化 学 习 问 题 ， 事 情 会 变 得 复杂 很 多 。 假 设 有 几 个 
多 臂 赌博 机 任务 ， 我 们 需要 在 每 一 个 时 间 点 来 选择 其 中 的 一 个 任务 。 虽 然 我 们 仍然 可 以 估算 奖励 
的 期 望 值 ， 得 到 的 表现 未 必 会 达到 最 优 。 在 这 种 情况 下 ， 我 们 最 好 把 一 些 特征 和 赌博 机 已 经 学 习 
到 的 奖励 期 望 值 联 系 起 来 。 试 想 一 下 ， 如 果 每 一 个 机 器 在 不 同时 间 都 有 一 个 LED 灯 来 发 出 不 同 
颜色 的 灯光 ， 如 果 当 赌博 机 亮 红 灯 时 总 是 比 亮 蓝 灯 时 给 出 更 大 的 奖励 值 ， 那 么 我 们 就 可 以 把 这 些 
信息 和 动作 选择 策略 联系 起 来 辅助 动作 选择 ， 即 可 以 选择 那些 红 灯 亮 得 更 多 的 机 器 。 

上 下 文 赌博 机 是 介 于 多 臂 赌 博 机 和 完整 的 强化 学 习 两 者 之 间 的 问题 。 它 和 多 臂 赌 博 机 有 很 多 
类 似 点 ， 比 如 它们 的 动作 都 只 影响 立即 奖励 (Immediate Reward)。 上 下 文 赌博 机 也 和 完整 强化 学 
习 设 置 类 似 ， 因 为 两 者 都 需要 学 习 一 个 策略 函数 。 如 果 要 把 一 个 上 下 文 赌博 机 变 成 一 个 完整 的 强 
化 学 习 任 务 ， 那 么 动作 将 不 只 是 影响 立即 奖励 ， 也 会 影响 未 来 的 环境 状态 。 



































































































































































































































2.3 ”马尔 可 夫 过 程 


2.3.1 简介 





马尔 可 夫 过 程 (Markov Process, MP) 是 一 个 具备 马尔 可 夫 性 质 (Markov Property) 的 离散 随 
机 过 程 (Discrete Stochastic Process). B| 2.4 展示 了 一 个 马尔 可 夫 过 程 的 例子 。 每 个 圆圈 表示 一 个 
状态 ， 每 个 边 〈 箭 头 ) 表示 一 个 状态 转移 (State Transition )。 这 个 图 模拟 了 一 个 人 做 两 种 不 同 的 
任务 〈Tasks)， 以 及 最 后 去 床上 睡觉 的 这 样 一 个 例子 。 为 了 更 好 地 理解 这 个 图 ， 我 们 假设 这 个 人 
当前 的 状态 是 在 做 “Task1” 他 有 0.7 的 概率 会 转 到 做 “Task2” 的 状态 ; 如 果 他 进一步 从 “Task2” 
以 0.6 的 概率 跳 转 到 “Pass” 状 态 ， 则 这 个 人 就 完成 了 所 有 任务 可 以 去 睡觉 了 ， 因 为 “Pass” 到 
“Bed” 的 概率 是 1. 

图 2.5 用 概率 图 模型 (Probabilistic Graphical Model) 来 表示 马尔 可 夫 过 程 ， 后 面 的 章节 会 经 
营 使 用 这 种 表达 方式 。 在 概率 图 模型 中 ， 本 书 统一 使 用 圆 形 来 表达 变量 ， 单 向 箭头 来 表达 两 个 变 
量 的 关系 。 例 如 ,“a 一 5” 表示 的 是 变量 ! 依赖 于 变量 a。 空白 圆 形 中 的 变量 表示 一 个 常规 变量 ， 
而 有 阴影 圆 形 的 变量 表示 一 个 观测 变量 (Observed Variable) (这 在 随后 的 2.7 75 Eg Fr Plea), W 
测 变量 可 以 为 其 他 常规 变量 的 推理 过 程 提 供 了 信息 。 包 含 一 些 变量 圆圈 在 内 的 实体 黑色 方 框 表 本 
这 些 变量 是 重复 的 ， 同 样 可 以 在 随后 的 图 片 中 看 到 。 概 率 图 模型 可 以 帮助 我 们 对 强化 学 习 中 变量 
关系 有 更 直观 的 理解 ， 以 及 在 我 们 对 治 着 MP 链 的 不 同 变量 求 导 梯度 时 提供 细致 的 参考 。 

马尔 可 夫 过 程 基于 马尔 可 夫 链 (Markov Chain) 的 假设 ， 下 一 状态 Sai 只 取决 于 当前 状态 
5S;。 一 个 状态 跳 转 到 下 一 状态 的 概率 如 下 : 
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p(Si1|S:) = p(St+1lS0, $1, S2, , St) (2.8) 
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2.3 


BRT AS 





























图 24 马尔 可 夫 过 程 例子 。s 表示 当前 状态 ， 箭 头 上 的 数值 表示 从 


p(S:|S:—1) p(Sui|S:) 






































这 个 式 子 描述 了 “无 记忆 的 (Memoryless)” 的 特性 ， 即 马尔 可 夫 链 上 























Property ) o 如 果 p(Si42 = s! $4 = s) = p(Sr44 = s'|S, = s) XH 


























Chain). 
我 们 也 常用 s' 来 表示 下 一 个 状态 ， 在 一 个 时 间 同 质 马 尔 可 夫 链 ! 
时 间 t 十 1 的 状态 s^ 的 概率 满足 : 











p(s'|s) = p(St41 = s'|S, = s) 








个 状态 转移 到 另 一 个 状态 的 


图 25 ”马尔 可 夫 过 程 的 概率 图 模型 ，t 表示 时 间 步 ，p(S441|S4) 表示 状态 转移 概率 


SSAA ATER (Markov 


E 意 时 间 步 +t 和 所 有 可 能 状态 
成 立 ， 那 么 它 是 一 个 沿 时 间 轴 的 稳定 转移 函数 (Stationary Transition Function )， 称 为 时 间 同 质 性 
CTime-Homogeneous)， 而 相应 的 马尔 可 夫 链 为 时 间 同 质 马尔 可 夫 链 CTime-Homogeneous Markov 











, TERS TA] t 

















| 状态 s 转移 到 








(2.9) 


时 间 同 质 性 是 对 本 书 中 大 多 数 推导 的 一 个 基本 假设 ， 我 们 在 后 续 绝 大 多 数 情况 中 默认 满足 
这 一 假设 而 不 再 提 及 。 然 而 ， 实 践 中 ， 时 间 同 质 性 可 能 不 总 是 成 立 的 ， 尤 其 是 对 非 稳 定 的 CNon- 
Stationary) 环境 、 多 智能 体 强化 学 习 (Multi-Agent Reinforcement Learning) 等 ， 而 这 些 时 候 会 涉 





























及 时 间 不 同 质 (Time-Inhomogeneous〉 的 情况 。 

















给 定 一 个 有 限 的 状态 集 (State Set) S， 我 们 有 一 个 状态 转移 矩阵 (State Transition Matrix) P. 
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$23 强化 学 习 入 门 





比如 ， 图 2.4 例子 中 对 应 的 已 如 下 所 示 : 





01.09 0 0 Ofr 














其 中 P; 是 当前 状态 S; 到 下 一 状态 5; 的 转移 概率 。 例 如 ， 图 2.4 中 状态 s =r ean 
s= t A 0.1 的 概率 ， 跳 转 到 状态 s = to 的 概率 为 0.9。P 是 一 个 方 矩 阵 ， 每 一 行 的 和 为 1。 
个 转移 概率 矩阵 表示 整个 转移 过 程 是 随机 的 《Stochastic)。 马 尔 可 夫 过 程 可 以 用 一 1 puisse 
< S, P >。 现 实 中 的 很 多 简单 过 程 可 以 用 这 样 一 个 随机 过 程 来 近似 ， 而 这 也 正 是 强化 学 习 方法 的 
基础 。 数 学 上 来 说 ， 下 一 时 刻 状态 可 以 从 忆 中 采样 ， 如 下 : 
















































































SE Ps. (2.10) 
其 中 符号 ~ 表示 下 一 个 状态 Sua 是 随机 地 从 类 别 分 布 CCategorical Distribution) Ps, HÆ 
单 得 到 的 。 
对 于 状态 集合 无 限 大 的 情况 (例如 说 状态 空间 是 连续 的 )， 一 个 有 限 的 矩阵 无 法 完整 地 表达 
这 样 状态 转移 的 关系 。 因 此 可 以 使 用 转移 函数 pz(s|s)， 其 与 有 限 状态 时 的 转移 矩阵 有 对 应 关系 ， 
如 p(s'|s) = Pss 
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2.3.2 马尔 可 夫 奖 励 过 程 


在 马尔 可 夫 过 程 中 ， 虽 然 智 能 体 可 以 通过 状态 转移 珑 阵 Poo = p(s'|s) 来 实现 与 环境 的 交 
H, 但 是 马尔 可 夫 过 程 并 不 外 a 为 了 提供 反馈 ， 马 尔 可 夫 奖 励 过 程 
(Markov Reward Process, MRP) 把 马尔 可 夫 过 程 从 < S, P > 拓展 到 < S,P,R,y>. HH nil 
7 分别 表示 奖励 函数 (Reward Function) 和 奖励 折扣 因子 (Reward Discount Factor). Él 2.6 是 一 
个 马尔 可 夫 奖 励 过 程 的 例子 。 图 2.7 是 马尔 可 夫 奖 励 过 程 的 图 模型 ， 奖 励 函 数 取 决 于 当前 的 状态 : 



















































































= R(S;) (2.11) 
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23 马尔 可 夫 过 程 























图 26 马尔 可 夫 奖 





励 过 程 的 例子 ; s 





表示 当前 的 状态 , 7 表示 每 一 个 状态 的 立即 奖励 (Immediate 











Reward )。 箭头 边 上 的 数值 





表示 从 一 个 状态 到 另 一 个 状态 的 概率 





























在 这 个 模型 中 , XE 
为 了 更 好 地 理解 奖励 



































Sta St © 
p(Si|St-1) P(St41| St) 
图 27 马尔 可 夫 奖 励 过 程 的 图 模型 
































励 仅 取决 于 当前 状态 , 而 当前 状态 是 基于 之 前 状态 和 之 前 动作 产生 的 结果 。 
是 状态 的 函数 ,我们 看 看 如 下 的 例子 。 如 时 




















智能 体能 通过 (Pass) 考试 , 智能 














体 可 以 获得 的 立即 奖励 为 10， 休 息 〈Rest) 能 获得 立即 奖励 为 1， 但 如 果 智 能 体 执行 任务 〈Task) 











会 损失 值 为 2 的 立即 奖 























励 。 给 定 一 个 轨迹 7 上 每 个 时 间 步 的 立即 奖励 >， 回 报 CReturn) 是 一 个 


轨迹 的 累积 奖励 (Cumulative Reward)。 严 格 来 说 ， 非 折扣 化 的 回报 CUndiscounted Return) 在 一 














个 有 了 时 间 步 长 的 有 限 过 程 ! 





















































HB Ri 是 t 时 刻 的 立即 奖励 ， 了 是 最 终 状态 的 步 数 ， 





(g, ti, t2, p, b) 的 非 折 扣 化 的 























的 值 如 下 : 
T 
Gi-or = R(t) = M; R; (2.12) 
t=0 
或 者 是 整个 片段 的 步 数 ， 例 如 ， 轨 迹 
可 报 是 5 = 二 一 1 一 2 一 2 十 10。 需 要 注意 的 是 ， 一些 文献 使 用 G 来 表示 
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回报 ， 而 用 尺 来 表示 立即 奖励 ， 但 在 本 书 中 ， 我 们 用 




















尺 来 表示 奖励 函数 (Reward Function). 


此 ， 在 本 书 中 Ri = R(S,) 是 时 间 步 t 时 候 的 立即 奖励 ， 而 R(7) = Gt=0:7 表示 长 度 为 了 的 轨迹 




















Tor 的 回报 ，7 是 立即 奖励 的 通用 表达 。 











通常 来 说 ， 距 离 更 近 的 时 间 步 比 相对 较 远 的 时 间 步 会 产生 更 大 的 影响 。 这 是 
回报 (Discounted Return) 的 概念 。 折 扣 化 








大 的 权重 。 定 义 折 扣 化 回报 如 下 : 






































T 
Gi=0:T = R(T) = Nw 
t=0 























EE 我们 介绍 折扣 化 
报 是 奖励 值 的 加 权 求 和 ， 它 对 更 近 的 时 间 步 给 出 更 








(2.13) 


其 中 奖励 折扣 因子 (Reward Discount Factor) y € [0, 1] 被 用 来 实现 随 着 时 间 步 的 增加 而 减 




















小 权重 值 。 举 例 来 说 ， 图 2.6 中 ， 当 y = 0.9， 且 轨迹 为 (g, t1, t2, p, b) A 
—1 — 2 x 0.9 — 2 x 0.9? + 10 x 0.99. WẸ 
非常 “短视 ”。 如 果 y = 1， 就 是 非 折 扣 化 的 















































报 。 当 处 理 





y=0， 则 回报 值 只 与 当前 的 立即 奖 









































非常 关键 ， 因 为 它 能 避免 回报 值 随 着 时 站 





























程 是 可 评估 的 。 









































ERK MRP fi 























{RA 2.87 = 





励 有 关 ， 智 能 体会 
况 时 ， 这 个 折扣 因子 会 
无穷 而 增 大 到 无 穷 ， 从 而 使 得 无 限 长 MRP 过 

















对 折扣 因子 的 另 一 个 理解 角度 是 : 为 了 简便 ， 奖 励 折 扣 因 子 y 有 时 在 文献 (Levine, 2018) 














































































































相应 的 价值 函数 写 为 V7(s): 














V"(s) = 
































为 了 描述 方法 ， 我 们 只 采样 4 个 轨迹 ): 
s = (t2,b), R = —2 + 0 x 0.9 = —2 




















中 的 离散 时 间 有 限 范围 MRP 的 情况 下 被 4 
中 ， 通 过 直接 修改 转移 动态 函数 来 使 得 任何 产 4 
都 有 概率 1 一 yY， 而 其 他 标准 的 转移 概率 都 乘 以 yo 

价值 函数 (Value Function) V(s) 是 状态 s 的 期 望 回 报 (Expected Return ) 。 举 例 来 说 ， 如 果 
下 一 步 有 两 个 不 同 的 状态 S1 和 5。， 基 于 当前 策略 订 


能 体 的 策略 通常 是 选择 价值 更 高 的 状态 作为 下 一 步 。 如 果 智 能 体 的 行动 基于 某 种 策略 +， 我 们 把 






































以 








+ 去， 而 这 时 折扣 因子 也 可 以 到 


EF 估 它们 的 价值 分 别 为 V7(51) 和 Yr(52)。 智 























E Ls [R(r)|So = s] 


对 于 状态 s 而 言 ， 它 的 价值 是 以 它 为 初始 状态 下 回报 的 期 望 ， 而 这 个 期 望 是 对 策略 oo 给 出 
的 轨迹 所 求 的 。 一 种 估计 价值 V (s) 的 简单 方法 是 蒙特 卡 罗 法 ， 给 定 
BIERE P 随机 采样 大 量 的 轨迹 ， 来 求 近似 期 望 。 
V7(s = t2)? 我 们 可 以 如 下 随机 采样 出 4 个 轨迹 《注意 ， 实 际 中 采样 的 轨迹 要 远大 于 4， 但 这 上 








e s =(to,p,b), R= —2 + 10 x 0.9 + 0 x 0.92 =7 


( 
e s = (t2,r,t2,p,b), R = —2 + 1 x 0.9 — 2 x 0.92 + 10 x 0.95 +0 x 0.94 = 4.57 
( 

















E 解 为 被 并 入 了 动态 过 程 
转移 至 一 个 吸收 状态 〈Absorbing State) 的 动作 





























(2.14) 





一 个 状态 s， 我 们 用 状态 转 
图 2.6 为 例 ， 给 定 y = 0.9 和 P, wiit 




















na 





e 8 = (to,7,t1,t2,b), R= —2 + 1 x 0.922 x 0.9? — 2 x 0.99 + 0 x 0.94 = —0.178 
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给 定 这 些 s = to 为 初始 状态 的 轨迹 ， 我 们 可 以 计算 每 个 轨迹 的 回报 RR， 然 后 估计 出 状态 
s = ty 的 期 望 回报 V (s = t2) = (-2 + 7 + 4.57 — 0.178) /4 = 2.348， 作 为 状态 s = to 的 价值 衡量 。 
图 2.8 用 这 个 方法 估算 出 每 个 状态 的 期 望 回报 。 给 定 这 些 期 望 回 报 ， 一 个 最 简单 的 智能 体 策 
略 是 每 一 步 都 往 期 望 回报 更 高 的 状态 移动 。 这 样 所 产生 的 动作 就 是 最 大 化 期 望 回报 ， 见 图 2.8 的 
虚线 箭头 。 除 了 蒙特 卡 罗 方 法 , 还 有 很 多 方法 可 以 用 来 计算 Y(s)， 比 如 贝尔 曼 期 望 方程 (Bellman 
Expectation Equation), EREN (Inverse Matrix Method) 等 ， 我 们 将 会 在 稍 后 逐一 介绍 。 

















































































































V(s = g) = —1.4125 
V(s = ti) = —0.4595 
V (s = t2) = 2.348 
V(s = r) = 0.5875 
‘V(s =p) = 10 
‘V(s=b) =0 














图 28 马尔 可 夫 奖 励 过 程 和 价值 估计 函数 V(s): 每 个 状态 都 随机 采样 4 个 轨迹 ， 用 蒙特 卡 罗 方 
法 估算 每 个 状态 的 价值 。 虚 线 箭 头 表示 学 习 出 的 简单 策略 ， 则 智能 体 往 价值 更 高 的 状态 
移动 















































2.3.3 ”马尔 可 夫 决 策 过 程 


马尔 可 夫 决 策 过 程 (Markov Decision Process, MDP) 从 20 世纪 50 年 代 已 经 开始 被 广泛 地 
究 ， 在 包括 经 济 、 控 制 理论 和 机 器 人 等 很 多 领域 都 有 应 用 。 在 模拟 序列 决策 过 程 的 问题 上 ， 马 
尔 可 夫 决 策 过程 比 马尔 可 夫 过 程 和 马尔 可 夫 奖 励 过 程 要 好 用 。 如 图 2.9 所 示 ， 和 马尔 可 夫 奖 励 过 
程 不 同 的 地 方 在 于 ， 马 尔 可 夫 奖 励 过 程 的 立即 奖励 只 取决 于 状态 (奖励 值 在 节点 上 )， 而 马尔 可 
夫 决 策 过 程 的 立即 奖励 与 状态 和 动作 都 有 关 〈 奖 励 值 在 边 上 )。 同 样 地 ， 给 定 一 个 状态 下 的 一 个 
动作 ， 马 尔 可 夫 决 策 过 程 的 下 一 个 状态 不 一 定 是 固定 唯一 的 。 举 例 来 说 ， 如 图 2.10 所 示 ， 当 智能 
体 在 状态 s = to 时 执行 休息 Gest) 动作 后 ， 下 一 时 刻 的 状态 有 0.8 的 概率 保留 在 状态 s = to 下， 
有 0.2 的 概率 变 为 s = tio 
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欧 











29 ”马尔 可 夫 决 策 过 程 例子 。 在 马尔 可 夫 奖 励 过 程 中 ， 立 即 奖 励 只 与 状态 有 关 。 而 马尔 可 夫 
决策 过 程 的 立即 奖励 与 状态 和 动作 都 有 关 























p(SiSi-i, At-1) P(St+1|St, At) 

















图 210 马尔 可 夫 决 策 过 程 的 图 模型 ; t 表示 时 间 步 ，p(At|91) 表示 根据 当前 状态 S, 选择 的 动作 
0 
的 决策 过 程 









































之 前 说 过 ， 马 尔 可 夫 过 程 可 以 看 成 一 个 元 组 <S, P>， 而 马尔 可 夫 奖 励 过 程 是 <S, P, R, y> 
其 中 状态 转移 矩阵 的 元 素 (Element) 值 是 P,» = p(s'|s)。 这 个 表示 将 有 限 维 CFinite-Dimension? 
状态 转移 矩阵 拓展 成 无 穷 维 (Infinite-Dimension) 概率 函数 。 这 里 , 马尔 可 夫 决 策 过 程 是 <S, A, P, 
R, Y>， 其 状态 转移 矩阵 的 元 素 变 为 













































































p(s'|s,a) = p(St41 = s'|Sy = 5, Ay = a) (2.15) 
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例如 图 2.9 中 很 多 状态 转移 概率 为 1， 比如 p(s’ = te|s = t1,a = work) = 1; 但 是 也 有 一 些 不 
是 ， 比 如 p(s’|s = to,a = rest) = [0.2,0.8]， 它 表示 的 是 ， 如 果 智 能 体 在 状态 s = to 下 执行 动作 
a 二 rest, EA 0.2 的 概率 会 跳 到 状态 s' =t1, MA 0.8 的 概率 会 保持 原来 的 状态 。 那 些 不 存在 的 
边 代 表 转 移 概 率 为 0， 比 如 p(s = to|s = t1,a = rest) = 0. 


A 表示 有 限 的 动作 集合 (Finite Action Set) {ai,az,……}， 则 立即 奖励 变 成 



















































































Ri = R(S,, Ai) (2.16) 























一 个 策略 〈Policy) 表示 智能 体 根据 它 对 环境 的 观测 来 行动 的 方式 。 具 体 来 说 ， 策 略 是 从 每 
一 个 状态 ss S 和 动作 a € A 到 动作 概率 分 布 r(als) 的 映射 ， 这 个 概率 分 布 是 在 状态 s 下 采取 动 
作 a 的 概率 ， 可 以 写 为 

















m(als) = p(A; = alS; = s),3t (2.17) 














WEHR (Expected Return) 是 在 一 个 策略 下 给 定 所 有 可 能 轨迹 的 回报 的 期 望 值 ， 强 化 学 习 
的 目的 就 是 通过 优化 策略 来 使 得 期 望 回报 最 大 化 。 数 学 上 来 说 ， 给 定 起 始 状态 分 布 po 和 策略 r 
马尔 可 夫 决 策 过 程 中 一 个 全 步 长 的 轨迹 的 发 生 概 率 是 : 















































T-1 
p(r|v) = po(So) II p(SirilSe, Ao) (Adi) (2.18) 


t=0 


给 定 奖 励 函 数 及 和 所 有 可 能 的 轨迹 r， 期 望 回报 J(r) 可 以 定义 为 























I(n) = ji plr|n) R(r) = Exam [R(r) (2.19) 


T 


























p 表示 轨迹 发 生 的 概率 ， 发 生 概率 越 高 ， 则 对 期 望 回报 计算 的 权重 越 大 。 强 化 学 习 优 
化 问题 (RL Optimization Problem) 通过 优化 方法 来 提升 策略 ， 从 而 最 大 化 期 望 回报 。 最 优 策 略 
(Optimal Policy) «* 可 以 表示 为 
































T* = arg max J (r) (2.20) 


























* 符号 在 本 书 中 表示 “最 优 的 ”含义 。 


给 定 一 个 策略 +， 价值 函数 V(s)， 即 给 定 状 态 下 的 期 


























Zu 
E 
i 





回报 ， 可 以 定义 为 








V"(s) =Er~x[R(7T)|So = s] 
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xk ER 


于 一 个 4 





然而 实际 





二 利 

















其 中 7 和 ~ 7 表示 轨迹 7 是 通过 策略 x XR 























^ Aceem (|S) 























我 





xn 





在 马尔 可 夫 决 策 过 程 ， 
0 刚刚 执行 的 动作 ， 是 基于 状态 和 动作 的 期 望 回 报 。 如 
则 把 动作 价值 函数 写 为 Q"(s, a)， 














我 











有 两 种 简 和 


得 到 的 《如 果 


于 状态 包 


策略 是 有 随机 性 的 )， 下 一 个 状态 取 坟 























Q" (s, a) = 


门 需 要 记 住 的 是 ，Q@r(s, a) eS 

















， 给 





Ek 
































t=0 




















q«(s,a) = 






































方法 














简 








日 
A 








方法 来 计算 价 
haustive method)， 如 公式 (2.18 


用 公式 (2.21) 和 (2.22) 来 计算 H 


起 于 策略 T 



































Un (s) 





Eus |R(T)|So 


m 


hj 








定义 为 


tra [R(T)|So = s, Ag = a] 





来 估计 的 ， 基 








的 ， At ~ A(: 


5 y R(S;, At)|So = | 


t=0 








于 状态 转移 外 

















果 一 个 














Ar~ (|S) So RS, At)|So = s, Ao =a 


为 对 值 的 估计 是 策略 oo 所 决定 的 轨 




















(2.21) 


St) 表示 动作 是 在 一 个 状态 下 从 
E 阵 P 及 其 状态 Fil 





定 一 个 动作 ， 就 有 动作 价值 函数 (Action-Value Function», XX 
智能 体 根 据 策 略 x 


(2.22) 











行 区 分 。 


Bann [qs (s, a)] 














) 所 示 ， 首 





期 望 。 也 就 是 说 ， 如 果 策 略 改变 了 ，Q@Qr(s,a) 也 会 相应 地 跟着 改变 。 
竺 定 策略 估计 的 价值 函数 为 在 线 价值 函数 “On-Policy Value Function), X- 
计 的 最 优 价值 函数 (Optimal Value Function) 进 


这 个 状态 的 V"™(s) 和 Q" (s, a)。 每 个 状态 都 用 穷 闻 





， 可 能 的 轨迹 数量 是 非常 大 的 ， 


使 用 之 前 介绍 的 蒙 
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至 是 无 穷 个 的 。 


大 




































































此 除了 


特 卡 罗 方 法 通过 采样 大 量 的 轨迹 来 估计 V" (s). 
， 但 都 有 各 自 的 缺点 。 而 实际 上 ， 估 计价 值 函 数 的 公式 可 以 根据 马尔 可 夫 性 质 做 进一步 的 简 


化 ， 即 下 一 小 节 要 介绍 的 贝尔 曼 方程 。 





K| 








此 我 们 通 








常 称 基 





























策略 佑 








最 人 








门 可 以 发 现价 值 函 数 wr(s) 和 动作 价值 函数 qu (s, a) 之 间 有 如 下 关系 : 


时 函数 os (s) 和 动作 价值 函数 qr(s,a): 第 一 种 方法 是 
先 计 算出 从 一 个 状态 开始 的 所 有 可 











能 轨迹 的 概率 ， 然 后 


(2.23) 
(2.24) 


ASIE Cex- 


zs 
力 

















法 




















来 单独 计算 。 





























使 用 所 有 可 能 的 轨迹 ， 第 





这 两 利 


方法 都 非常 


2.3 


BRT AS 





* 


2.3.4 ”贝尔 曼 方 程 和 最 优 性 


贝尔 曼 方 程 


pu 
数 在 策略 指引 下 所 


























采 轨 迹 上 的 





^K & J; f£ (Bellman Equation) ， 也 称 为 贝尔 曼 期 望 方程 
期 望 。 我 们 称 之 为 “在 线 (On-Policy)” 估 计 方 法 〈 注 意 它 与 之 后 


























Ys Hs fe 








I-5 























用 于 计算 


£r XE HR 











v 时 价值 函 














rar [R(T)|So = s] 





的 在 线 策略 和 离线 策略 更 新 区 分 ) ， 因 为 强化 学 习 中 的 策略 一 直 是 变化 的 ， 而 价值 函数 〈Value 
Function) 是 以 当前 策略 为 条 件 或 者 用 其 估计 的 。 

回想 状态 价值 函数 或 动作 价值 函数 (Action-Value Function) 的 定义 , 即 un (s) = 
和 gr(s,a) = Er~x[R(7T)|So = s, Ao = qj， 我 们 可 以 利用 递归 关系 得 


Policy State-Value Function) 的 贝尔 曼 方 程 : 














tant (:|s),s'~pC]s,a) 





x 
"aeem (-|s),s' ep] s;a) 








| 
| 
| 
| 


























Lacon C18), s plssa) [T 








在 时 间 步 二 上 的 表示 。 在 上 面 的 一 些 公式 : 








地 展示 期 望 是 关于 


上 式 最 后 一 个 等 式 成 立 ， 是 因为 s, a 是 对 状态 和 到 


Ri 
Ri 
bans),s psa) LP 
Y Aere (4S2) Sei po Se Ac) P TY 


i Acn (4S0), Sampl Se A) HU + Yos (S143)| S: = 5] 





UD R(t: T)|$: = = s] 
+ Rigi t+ Y Ras 














+ (Rea 
T y Ro 





1:T 

















十 Yur(s 








哪些 变量 求 得 的 。 





注意 上 面 的 推 
可 以 直接 通过 从 






































导 过 程 中 ， 我 人 




















去 掉 动 作 来 得 到 : 








除 上 述 外 ， 
qr(s, 4) = 














siup: 
































也 
s,a) [R(s,a) +7 


v(s) 








m 


























Barr- 



































ls [qr (s' ,0 "eI 


acm (-|s),s' e» p(-|s,a) [R(«T)| S: = $8, At = a] 


bacon (s) s^ ep (-|s,a) [Ri a 
Lacon (-|8),s' ~p(:|ssa) [Ry 了 


wp(CeI + Yu(s 





] 展 示 了 基于 MDP 的 贝尔 曼 方 程 ， 


‘)] 




















F Rega + Y! Ri» 





Fy(Ria + yRepe + 





A.) [Re + 











Si io Cl: 





J le s" p(-|,a) [Rrr] |S: = s] 


3T Rr|S: = s] 
7 Rr)|8 = s] 


MER] — RR. M Sy, ht 是 状态 和 动作 
» St, At 有 时 从 一 般 表 示 8,0 分离 出 来 ， 从 而 更 清楚 


然而 ， 对 MRP 的 贝尔 曼 方程 


于 在 线 动作 价值 函数 〈On-Policy Action-Value Function) 的 贝尔 曼 方 程 : 


可 以 通过 如 下 推导 得 到 : 


HEIRS (ERZ COn- 


Bawa(-|s),8’~p-ls,a) Rrerir]lSt = 5] 


(2.25) 


只 











(2.20) 





yTRr|S: = s, A, = a] 
ty? 1 Ry)|S. = 8, A = a] 
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,ivp(1S A) [Rt 十 7 




















Aori~n( St1) [qr (St41, 414)][5: = s] 























































































































































































































































































































= s! e p(-|s,a) [R(s, a) ay. 4a! eem (-|s/) [a (s'; a')]] (2.27) 
上 面 的 推导 是 基于 最 大 长 度 为 了 的 有 限 MDP， 然 而 ， 这 些 等 式 对 无 穷 长 度 MDP PTBA, H 
XÉT HP "oo" BARBE. TAI, AWA NR SPE OR IR IN BES, RO ET 
对 随机 性 策略 r(.|s) 和 确定 性 策略 r(s) 都 有 效 。 这 里 x(:|s) 的 使 用 是 为 了 简化 。 而 且 ， 在 确定 性 
转移 过 程 中 ， 我 们 有 p(s'|s, a) = 1. 
贝尔 曼 方 程 求解 
如 果 转 移 函 数 或 转移 矩阵 是 已 知 的 , 公式 (2.26) 中 对 MRP If UJ Ria 可 以 直接 求解 , 称 为 
WASERE ASA (Inverse Matrix Method)。 我 们 用 矢量 形式 对 离散 有 限 状 态 空间 的 情况 将 公式 (2.26) 
改写 为 
v=rt+y7Pv (2.28) 
其 中 v Flr RE, RAJ o(s) 和 R(s) 是 对 所 有 s ES 的 ,而 忆 是 转移 概率 矩阵， 其 元 素 p(s’|s) 
对 所 有 s,s’ € S 成立。 
由 wv ==7 十 YPv， 我 们 可 以 直接 对 它 求解 : 
—(I—-4P)! (2.29) 
求解 的 复杂 度 是 O(n?), KP n 是 状态 的 数量 。 因 此 这 种 方法 对 有 大 量 状态 的 情况 难以 求解 ， 这 















































意味 着 它 可 能 对 大 规模 或 连续 值 问题 不 适 
模 的 MRP 问题 ， 比 如 动态 规划 (Dynamic Programming )、 蒙 特 卡 
和 时 间 差 分 NM Difference) 学 习 法 ， 这 些 方法 将 在 随后 的 小 节 : 


。 李 运 的 是 ， 有 一 些 欠 代 方法 可 以 在 实践 中 解决 大 规 
EZ {tt (Monte-Carlo Estimation) 


详细 介绍 。 



































最 优 价值 函数 


由 于 在 线 价值 函数 是 根据 策略 本 身 来 估计 的 ， 即 使 是 在 相同 的 状态 和 动作 集合 上 ， 
略 也 将 会 带 来 不 同 的 价值 函数 。 对 了 


F 所 有 不 同 的 价值 函数 ， 我 们 定义 最 优 价值 函数 为 





不 同 的 策 








同 












































uUx(5) = maxvz(s),Vs € S, (2.30) 


这 实际 是 最 优 状 态 价值 函数 (Optimal State-Value Function)。 我 们 也 有 最 优 动作 价值 函数 (Optimal 


Action-Value Function ): 
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q.(s,a) = maxq,(s,a),Vs € S,a € A, 
T 


它们 之 间 的 关系 为 














qx(s,@) = E[Ri 十 Yux(9t+ijlo = s, Ae = a], 


上 式 可 以 直接 通过 对 式 (2.84) 的 最 后 一 个 等 式 最 大 化 并 代入 式 (2.24) 和 (2.30) 来 得 到 : 








q«(s, a) = E[F( 


= E[R( 












































s,a) + y max E[g,(s’, a’)]] 





5, a) + y max v; (s')] 


= E[F + v. (S41) |S: = s, At = a]. 








它们 之 间 的 另 一 种 关系 为 


























这 可 以 直接 通过 最 大 化 式 (2.24) 的 两 边 来 得 











贝尔 曼 最 优 方程 








在 上 面 小 节 中 ,我们 介绍 了 一 般 在 线 价值 函 数 的 贝尔 曼 方程 ， 以 及 最 优 价值 函数 的 定义 。 基 




































































(2.31) 


(2.32) 


(2.33) 


(2.34) 














此 我 们 可 以 在 预定 义 的 最 优 价值 函数 上 使 用 贝尔 曼 方 程 ， 这 会 得 到 贝尔 曼 最 优 方程 (Bellman 
Optimality Equation) ， 或 称 对 最 优 价值 函数 的 贝尔 曼 方 程 (Bellman Equation for Optimal Value 








Functions)， 推 导 如 下 。 





对 最 优 状态 价值 函数 的 贝尔 曼 方 程 为 














v,(s) = max 
a 














它 可 以 通过 下 面 推导 来 得 到 ; 




















Es’ p(-|s,a) [R(s, a) ur v. (s")]; 


Ux (s) = max, sh shops [as [R(ri7)] S: xx s] 











= max Er» v.p.) [Re 4 








4 
— max n*,s'~p(-|s,a) [Ri z 





= max EJ. (sa) [Rt 4 

















- y max 
a’ 








= max E... (sa) [Rt 4 














HRe t Y! Baa o YT Rr|S = s] 
ry Rear |S = via s] 


Sr sbeupis ls,a) [BR Tt-1: 71$: = EE sj 


H Va (St+1)lSt = s] 


(2.35) 
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= max Ey.9(.|s,a)[R(s, a) + yu.(s’)] (2.36) 


a 





最 优 动 作价 值 函 数 的 贝尔 曼 方 程 为 

















q«(s, a) = Ey oc |o a) R(s, a) + y max q«(s', a/)], (2.37) 





上 式 可 以 通过 与 前 面 类 似 的 方式 得 到 。 读 者 可 以 练习 完成 这 个 证 明 。 








235 ”其 他 重要 概念 


确定 性 和 随机 性 策略 
在 之 前 的 小 节 中 ， 策 略 用 概率 分 布 r(als) = p(A: = alSt = s) 表示 ， 其 中 智能 体 的 动作 是 
从 分 布 中 采样 得 到 的 。 一 个 动作 从 概率 分 布 中 采样 的 策略 称 为 随机 性 策略 分 布 (Stochastic Policy 
Distribution)， 其 动作 为 










































































a~ n (-|s) (2.38) 





























然而 ， 如 果 我 们 减少 随机 性 策略 分 布 的 方差 并 将 其 范围 缩 窗 到 极限 情况 ， 则 将 得 到 一 个 狄 拉 
AŽ (6 函数 ) 作为 其 分 布 , 即 为 一 个 确定 性 策略 (Deterministic Policy) r(s)。 确 定性 策略 m(s) 
也 意味 着 给 定 一 个 状态 ， 将 得 到 唯一 的 动作 ， 如 下 : 


















































7 























a = n(s) (2.39) 





注意 确定 性 策略 不 再 是 从 状态 和 动作 到 条 件 概 率 分 布 CConditional Probability Distribution) 
的 映射 ， 而 是 一 个 从 状态 到 动作 的 直接 映射 。 这 点 不 同 将 导致 随后 介绍 的 策略 梯度 方法 中 的 一 些 
推导 过 程 的 不 同 。 更 多 关于 强化 学 习 中 策略 类 别 的 细节 ， 尤 其 是 深度 强化 学 习 中 的 参数 化 策略 ， 
将 在 2.7.3 节 中 介绍 。 

部 分 可 观测 马尔 可 夫 决 策 过 程 

如 前 面 小 节 中 所 述 , 当 强 化 学 习 环 境 中 的 状态 无 法 由 智能 体 的 观测 量 完全 表示 的 时 候 ,环境 是 
部 分 可 观测 的 。 对 于 一 个 马尔 可 夫 决 策 过 程 , 它 被 称 为 部 分 可 观测 的 马尔 可 夫 决 策 过 程 (Partially 
Observed Markov Decision Process，POMDP)， 而 这 构成 了 一 个 利用 不 完整 环境 状态 信息 来 改进 策 
略 的 挑战 。 

















































































































2.4 ”动态 规划 


20 世纪 50 年 代 ，Richard E. Bellman 首次 提出 动态 规划 (Dynamic Programming) 的 概念 。 随 
后 , 动态 规划 算法 被 成 功 地 应 用 到 一 系列 有 挑战 的 场景 中 。 在 “动态 规划 ”一 词 中 ,“ 动 态 ” 指 求 
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解 的 问题 是 序列 化 的 “规划 ” 指 优 
种 通用 的 求 








| 的 求解 框架 。 

















进 


状态 转移 方程 ， 但 是 在 强化 学 习 的 场景 中 ， 这 些 信息 是 很 难 被 获取 的 。 尽 管 如 此 ， 动 态 规划 依旧 


步 将 Fs DEAS Fs = Fo + Fi, 














例如 ， 在 斐 波 那 契 数列 
1 开始 。 如 第 4 个 数 Fa 可 以 写 为 前 
从 而 得 到 = (Fo +F) + Fo, J 
和 Fo 表示 了 丈 。 动 态 规划 需要 知道 求解 问题 的 全 部 信 ， 














的 每 一 个 数字 























化 策略 。 动 态 规划 将 复杂 的 动态 问题 拆 解 为 子 问题 ， 提 供 了 一 
1 两 个 先前 的 数字 相 加 得 到 ， 从 0 和 
两 个 数 Fe Fo ZAI Fy = Fy + Foo CER MAH, RAITA 
于 是 我 们 用 朴素 的 子 问 题 Ps 





























提供 了 


问题 
题 的 





上 
Tio 














BUF 

















解 。 重 登 子 问题 是 指 子 问题 的 数 








大 








ESSO UA NM 























环境 








的 理想 化 模型 。 








2.4 


归 地 调 


策略 迭代 
策略 迭代 Policy Iteration) 的 
3 贝尔 曼 方程 来 评估 策略 : 


d 





H 





























vx (s) 

















这 上 

















Um 来 偶 心 地 执行 动作 ; 


E 


























(Overlapping Sub-Problems) 。 最 优 子 


EH 





的 在 了 


量 是 有 限 的 ， 以 及 子 问 题 递 归 
有 限 动 作 和 状态 空间 的 MDP 满足 以 上 两 个 性 质 ， 贝 尔 曼 方程 实现 了 递归 式 的 分 解 ， 价 值 
此 在 本 小 节 中 ， 我 们 假设 状态 集 和 动作 集 都 是 有 限 的 ， 并 且 有 

















结构 是 指 











地 出 现 ， 








Ur [Ri + us (S141) |S; 一 s] 


7'(s) = greedy(v,) = arg max qz (5, a). 
acA 



































的 提升 可 以 由 以 下 证 明 : 
Un(8) = qx (s, m(s)) 
qz (s. m (s)) 
= ES [Ri + War (St41) [St = s] 
< Er [Re + Yan (Sisi T (St41)) |S = 5] 
< Ej [Re + Rept + Yar (Sio, T (Si42)) [St = 5] 
S Er [Ri + yRepi Y? Riga +++ |S = 8] = ve (s). 























电 ， 例 如 ， 强 化 学 习 问 题 ; 

















的 奖励 机 制 和 











种 通过 在 马尔 可 夫 过 程 中 进行 交互 来 学 习 的 基本 思路 ， 被 大 多 数 强化 学 习 算法 所 沿用 。 

可 以 应 用 动态 规划 的 问题 必须 具备 两 个 性 质 : 最 优 子 结构 COptimal Substructure) lB BF 
个 给 定 问题 的 最 优 解 可 以 分 解 成 它 的 子 问 
使 其 可 以 被 存储 和 本 





poh 











5B 











F 直接 操控 策略 。 从 任意 策略 r 开始 ， 我 们 可 以 通过 有 递 














(2.40) 


的 期 望 是 针对 基于 环境 全 部 知识 的 所 有 可 能 的 转移 。 一 个 获得 更 好 策略 的 自然 想法 是 根据 


(2.41) 


(2.42) 
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接连 地 使 用 以 上 的 策略 评估 和 贪心 提升 ， 直 到 m = 7 形成 策略 迭代 。 一 般 地 ， 策 略 迭 代 的 
过 程 可 以 总 结 如 下 : 给 定 任 意 一 个 策略 mu TRE IER t 中 的 每 一 个 状态 s， 我 们 首先 评估 
ur,(s)， 然 后 找到 一 个 更 好 的 策略 rs+i。 我 们 把 前 一 个 阶段 称 为 策略 评估 (Policy Evaluation), 1E 
后 一 个 阶段 称 为 策略 提升 (Policy Improvement)。 此 外 ,我 们 使 用 术语 泛 化 策略 迭代 (Generalized 
Policy Iteration，GPI) 来 指 代 一 般 的 策略 评估 和 策略 提升 交互 过 程 ， 如 图 2.11 所 示 。 













































































初始 化 TU 





TU. 


图 2.11 泛 化 策略 迭代 








一 个 基本 的 问题 是 ， 策 略 迭 代 的 过 程 是 否 在 最 优 值 w 上 收敛 。 在 策略 评估 的 每 一 次 迭代 
对 于 固定 的 、 确 定性 的 策略 r， 价 值 函数 更 新 可 以 被 贝尔 曼 期 望 回溯 算 子 T7 重 写 为 


























(T*V)(s) = (R* -yP*V)(s) = DRG 十 7YV(s ))P(r s'|s, n(s)). (2.43) 


r,s! 











MAM FT HES ISOMER V A V, RIF T7 AUP AR CContraction) 证明: 























ITV (s) - TTV (s)| = | (r + WV (8) P(r, 818, m(s)) -X (r + 9V"(8')) P(r, s'|s ms) 


"d 1 
T,S T,S 


= [FO V (s) - V's) P(r, s'|s, n()) 


r,s! 





< » als) - V'(s)|P(r, s'|s ms) 


和 > j9llV -Veo P(r, 8's, (5) 
= IV — V'lleo, (2.44) 














HEME ||V — V "loo FE oo 范 数 。 通过 收缩 映射 定理 (Contraction Mapping Theorem， 即 巴 拿 赫 不 动 点 
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定理 ，Banach Fixed-Point Theorem )， 和 迭代 策略 评估 会 收敛 到 唯一 的 固定 点 本 。 由 于 TTwx = v, 
是 固定 点 ， 和 迭代 策略 评估 会 收敛 到 v- 。 需 要 指出 的 是 ， 策 略 提升 是 单调 的 ， 并 且 在 有 限 MDP ! 
的 价值 函数 只 对 应 于 有 限 个 数 的 贪心 策略 。 策 略 提升 会 在 有 限 步 数 后 停止 ， 也 就 是 说 ， 策 略 友 代 


会 收敛 到 va 0 























































































































算法 2.6 策略 迭代 
对 于 所 有 的 状态 初始 化 VV 和 7 
repeat 
// 执 行 策略 评估 
repeat 
ó —0 
for s c S do 
v + V(s) 
V(s) © X, v (r4 3V(s))P(r. sls, n()) 
ô + max(6ó, |v — V (s)|) 
end for 
until ô /- T — 1E RE 
/执行 策略 提升 
stable + true 
for s c S do 
a + t(s) 
m(s) — argmaxa >», (7 + yV(s')) P(r, s'|s, a) 
if a Z 7(s) then l 
stable + false 
end if 
end for 
until stable = true 
return 策略 7 




















2.4.2 ”价值 迭代 


价值 迭代 (Value Iteration) 的 理论 基础 是 最 优 性 原则 (Principle of Optimality )。 这 个 原则 告 
诉 我 们 当 且 仅 当 7 取得 了 可 以 到 达 的 任何 后 续 状态 上 的 最 优 价值 时 ，7 是 一 个 状态 上 的 最 优 策 
略 。 因 此 如 果 我 们 知道 子 问题 vu (s^) 的 解 ， 就 可 以 通过 一 步 完 全 回溯 (One-Step Full Backup) #& 
到 任意 一 个 初始 状态 s 的 解 : 




















































































































.(8) = max R(s, P(s'|s, ao, (s"). 2.45 
Ux (5) max (s a7? (s'|s, a)v.(s") (2.45) 












































Af EE (RRL EEE Ei 


f] SEGUE A dg ACUGSO TAS. RAS RHE IR BÜXETI « ARIS TC 
中 的 收敛 证 明 类 似 ， 贝 尔 曼 最 
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c Rn QE c M S (2.46) 








这 也 是 对 于 任意 价值 函数 了 和 V" 的 收缩 映射 : 


























IT*V (s) - T*V'(s)] 


R(s,a)+7 5 P(s'|s, a)V'(s^) 
stes 


Rí(s,a) 4- y 5 P(s'|s, a)V (s) 


B 
s'cS 


— max 
ac acA 

















< max|R(s,a) +7 D> P(s!|s,a)V(s!) — R(s,a) - D> P(s'|s,a)V"(s! 
E s'cS siES 





= max y 5 P(s'ls,a)(V(s!) VC) 
s'es 








< P(s! 八 V'a 
max V. P(s'|s,a)|V(s!) — V'(s?) 


s'cS 
< / oy! 
< maxy 5 , P(s'|s,a)||V Vl 

s'ES 
_ oy! / 
= lV V'|loo max >, P(s'|s,a) 

s'cS 

= lV — V" las. (2.47) 
































HF ov. 22 T* 的 一 个 固定 点 , UMBERTO vus ETS He, ESM, RA 
后 续 状 态 的 实际 价值 是 已 知 的 。 换 句 话 说， 价值 是 不 完整 的 ， 因 此 ， 我 们 在 以 上 的 证 明 中 使 用 佑 
计价 值 函 数 VY， 而 不 是 真实 价值 v。 
可 时 停止 价值 迭代 算法 不 是 显而易见 的 。 文 献 (Williams et al., 1993) 在 理论 上 给 出 了 一 个 充 
41] (Sufficient) 停止 标准 : 如 果 两 个 连续 价值 函数 的 最 大 差异 小 于 ce， 那么 在 任意 状态 下 ,贪心 
策略 的 价值 与 最 优 策略 的 价值 函数 的 差 值 不 会 超过 PS 
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2.4.3 其 他 DPs: 异步 DP、 近 似 DP 和 实时 DP 


目前 描述 的 DP 方法 均 使 用 同步 回 滴 (Synchronous Backup)， 即 每 个 状态 的 价值 基于 系统 性 
的 扫描 (Systematic Sweeps) 来 回 湖 。 一 种 有 效 的 变 体 是 异步 的 更 新 CAsynchronous Update), mi 
这 也 是 速度 和 准确 率 之 间 的 权衡 。 异 步 DP 对 于 强化 学 习 的 设 定 也 是 适用 的 ， 且 如 果 所 有 状态 被 
持续 选择 的 话 ， 可 以 保证 收 化 。 异 步 DP 有 三 种 简单 的 思路 : 
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算法 2.7 价值 迭代 
为 所 有 状态 初始 化 下 
repeat 
ô- 0 
for s € S do 
u + V (s) 
V (s) + maxa js P(r, s'|s,a)(r + yV(s’)) 
6 + max(ô, |u — V (s)]) 
end for 
until 6 /- T — iE BUT 
输出 贪心 策略 r(s) = arg maxa > « P(r, s'|s, a)(r + V (s^)) 









































1. 在 位 更 新 〈In-Place Update 
同步 价值 迭代 (Synchronous Value Iteration) 存储 价值 函数 Wi() FLV. (-) 的 两 个 备份 : 









































Vias) — max Rí(s,a) 4- y 2 P(s'|s, a)V;(s’). (2.48) 





TEMME IKAR R FERE BE — 1 8 02 : 























V(s) — max R(s, a) + RN a)V (s). (2.49) 








2. 优先 扫描 CPrioritized Sweeping) 
在 异步 DP 中 ， 另 一 个 需要 考虑 的 事情 是 更 新 顺序 。 给 定 一 个 转移 (s,a,s')， 优 先 扫描 将 它 
的 贝尔 曼 误 差 (Bellman Error) 的 绝对 值 作 为 它 的 大 小 : 
























































V (s) — max(R(s, a) + y Y; P(s'|s,a)V(s'))] . (2.50) 
SES 








它 可 以 通过 保持 一 个 优先 权 队 列 来 有 效 地 实现 ， 该 优先 权 队列 在 每 个 回溯 后 存储 和 更 新 每 
个 状态 的 贝尔 曼 误 差 。 

3. 实时 更 新 (Real-Time Update) 
在 每 个 时 间 步 上 之 后 ， 不 论 采 用 哪个 动作 ， 实 时 更 新 将 只 会 通过 以 下 方式 回 湖 当前 状态 Se: 























T(S) € max R(S;,a) +7 V ^ P(s'|S:,a)V(s'). (2.51) 
acA scs 





它 可 以 被 视 为 根据 智能 体 的 经 验 来 指导 选择 要 更 新 的 状态 。 
同步 DP 和 异步 DP 都 在 全 部 状态 集 上 回 滴 ， 估 计 下 一 个 状态 的 预期 

















H 





报 。 从 概率 的 角度 来 
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看 ， 一 个 有 偏差 的 但 有 效 的 选择 是 使 


25 RES 


























TREE SY 








中 。 我 们 将 在 下 一 个 小 节 中 深入 讨论 此 问题 。 





和 动态 规划 不 同 的 是 ， 蒙 特 卡 罗 (Monte Carlo, MC) 方法 不 需要 知道 环境 的 所 有 信息 。 蒙 特 





卡 罗 方 法 只 需 基 于 过 去 的 经 验 就 可 以 学 习 。 它 也 是 一 种 基 
环境 只 有 很 少 的 先 验 知识 时 从 经 验 中 学 习 来 取得 很 好 的 效果 。 
的 算法 。 





特 卡 罗 可 以 在 对 

















用 来 泛 指 那些 有 很 大 随机 性 

当 我 们 在 强化 学 习 中 使 用 蒙特 1 
(State-Action Pair〉 相 应 的 : 
(Contextual Bandit) 问题 中 







































































于 样本 的 〈Sampling-Based) 方法 。 蒙 








FE 罗 方 法 的 时 候 ， 需 要 对 来 自 不 同 片段 中 的 每 个 状态 -动作 对 


“蒙特 卡 罗 ” 可 以 

















迷 励 值 取 平均 。 

















LED 灯 状 态 信息 和 





























， 如 果 在 不 同 的 机 器 上 有 
司 的 联系 。 我 们 在 这 上 






































个 例子 是 ， 在 本 章 之 前 内 容 
个 LED H, WARE 
FP 灯 的 排列 组 合作 为 一 和 

















介绍 的 上 下 文 赌博 机 














i 可 以 逐渐 地 学 习 
PS. Ao AS 

















能 的 奖励 值 就 作为 这 个 状态 的 价值 。 最 开始 ， 我 们 可 能 无 法 对 状态 价值 有 一 个 很 好 的 预 估 ， 但 是 

















ARMEL f 
们 怎么 更 合理 地 做 


























尝试 以 后 ，3 


估算 。 假 设 问题 是 回合 和 



































作 ， 一 个 回合 最 后 都 会 终止 。 





2.5.1 ”蒙特 卡 罗 预 测 

起 来 看 给 定 
种 方式 是 ， 通 过 对 具体 策略 产生 的 回 
数 vs (s) 作为 在 策略 r 下 的 状态 价值 函数 。 我 们 


首先 ， 我 们 
































态 s 在 一 个 回合 








口 














均 状 态 价值 会 向 它们 的 真实 值 靠近 。 在 这 个 章 ? 
BI] (Episodic), 






































个 策略 oe 如 何 用 
































报 取 ” 

















REKRY 



































更 
合 ， 并 把 每 一 次 状 


上， 我 们 会 探索 我 
而 不 论 一 个 玩家 做 出 了 哪些 的 动 


罗 方 法 来 评估 状态 价值 函数 。 直观 上 的 一 
评估 状态 价值 函数 。 
晶 经 过 状态 s 的 回 























LA, iE 


8 现 叫 作 一 次 对 状态 s 的 访问 。 这 样 一 来 ， 我 们 就 有 两 种 估算 方式 : 首次 蒙 








TREZ (CFirst-Visit Monte Carlo) 和 每 次 蒙特 卡 罗 CEvery-Visit Monte Carlo)。 首 次 蒙特 卡 罗 只 考 





虑 每 一 个 回合 











方式 有 很 多 的 相 
来 对 v. (s) 估 




















第 一 次 到 状态 s 的 访问 ， 而 每 次 蒙特 








似 点 , 但 是 也 有 








EE 首次 蒙特 








检查 条 件 去 掉 即 











自 举 (Bootstrappi 





ng)， 也 就 是 说 ， 它 不 用 








可 以 让 我 们 直接 通 





当 我 们 有 了 环境 的 模型 以 后 ， 状 态 价值 函 数 就 会 和 
个 状态 的 不 同 动作 的 价值 平均 值 来 选择 如 
型 未 知 时 ， 我 们 需要 把 状态 -动作 价值 估算 + 
们 的 学 习 目 标 就 变 成 了 qr(s,a)， 即 在 状态 s 下 根据 策略 r 采取 动 
上 与 对 状态 价值 函数 的 估计 基本 一 致 ， 而 我 们 现在 只 是 取 状 态 s f 




















的 回 





















































E 罗 就 是 考虑 每 次 到 状态 s 





FE 罗 变 成 每 次 蒙特 卡 罗 
[我 们 对 状态 s 有 无 








报 来 对 状态 值 进行 估算 ， 





在 操作 








的 访问 。 这 两 种 









































a 








些 理论 上 的 不 同 。 在 算法 2.8, 我 们 展示 了 如 何 用 








次 蒙特 卡 罗 







































































EH 
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EF 意 状态 下 的 最 好 动作 ， 
个 状态 -动作 




















值 需要 被 分 别 


就 和 在 动态 规 蕊 

















上 很 简单 ， 我 们 只 需要 把 对 首次 访问 
话 ， 那 最 终 这 两 种 方式 都 会 收敛 到 wr(s)。 
蒙特 卡 罗 方 法 可 以 独立 地 对 不 同 的 状态 值 进行 估算 。 和 动态 规划 不 同 的 是 ， 蒙 特 卡 罗 不 使 用 
占 算 来 估算 当前 的 状态 值 。 这 个 独特 的 性 质 
从 而 有 更 小 的 偏差 但 会 
对 为 我 们 就 可 














更 大 的 方差 。 














以 通过 比较 对 一 














/E a 时 的 预期 





H 











上 里 一 样 。 当 模 
Wir. ME, R 


报 。 这 在 本 质 





E 动 作 a 上 的 平均 值 而 已 。 不 过 


25 蒙特 卡 罗 














有 时 ， 可 能 会 有 一 些 状态 从 来 都 没有 被 访问 过 ， 所 以 就 没有 回报 。 为 了 选择 最 优 的 策略 ， 我 们 必 
须要 探索 所 有 的 状态 。 一 个 简单 的 方法 是 直接 选择 那些 没有 可 能 被 选择 的 状态 -动作 对 来 作为 初 





























始 状 态 。 这 样 一 来 ， 就 可 以 保证 在 足够 的 回合 数 过 后 ， 所 有 的 状态 -动作 对 都 是 可 以 被 访问 的 。 我 




















们 把 这 样 的 一 个 假设 叫 作 叫 作 探索 开始 CExploring Starts). 











算法 2.8 首次 蒙特 卡 罗 预 测 

















输入 : 初始 化 策略 a 
初始 化 所 有 状态 的 V(s) 
初始 化 一 列 回 报 : Returns(s) 对 所 有 状态 


repeat 



























































G —0 
t—T-1 
for t >= 0 do 
G & yG + Ria 
if So, Si, oes 29,4 没有 Si then 
Returns(S;).append(G) 
V(S,) — mean(Returns(S;)) 
end if 
tc—t-l 
end for 
until 收敛 


通过 0: So, Ao, Ro, 81, , Sr i, Amas Ri 生成 一 个 回 





2.52 ”蒙特 卡 罗 控 制 
































现在 我 们 可 以 把 泛 化 策略 迭代 运用 到 蒙特 卡 罗 中 去 ， 来 看 看 它 是 怎么 用 来 控制 的 。 泛 化 策略 


迭代 有 两 个 部 分 ， 策略 评估 (Policy Evaluation) 和 策略 提升 (Policy Improvement)。 策 略 评估 的 
过 程 与 之 前 小 节 中 介绍 的 动态 规划 是 一 样 的 ， 所 以 我 们 主要 来 介绍 策略 提升 。 我 们 会 对 状态 - 动 
作 值 使 用 贪心 策略 ， 在 这 种 情况 下 不 需要 使 用 环境 模型 。 贪 心 策略 会 一 直选 择 在 一 个 状态 下 有 最 













































































高 价值 的 动作 : 


7(s) = arg max q(s, a) 





对 于 每 一 次 策略 提升 ， 我 们 都 需要 根据 qu, 来 构造 mii1。 这 里 展示 策略 提升 是 怎么 实 下 


















































dr (8; TtH1(5)) = dr, (s, arg max qr, (s, a) 
a 


= max On, (s, a) 


> qx (s, m(s)) 
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2 vs (5) (2.53) 




















上 面 的 式 子 证 明了 mua 不 会 比 m 差 ， 而 我 们 会 在 迭代 策略 提升 后 最 终 找 到 最 优 策略 。 这 也 
意味 着 ， 我 们 可 以 对 环境 没有 太 多 了 解 而 只 有 采样 得 到 的 回合 才 使 用 蒙特 卡 罗 。 这 里 我 们 需要 解 
决 两 个 假设 。 第 一 个 假设 是 探索 开始 ， 第 二 个 是 假设 有 无 穷 多 个 回合 。 我 们 先 跳 过 第 一 个 假设 ， 
从 第 二 个 假设 开始 。 简 化 这 个 假设 的 一 种 简单 方法 是 ， 通 过 直接 在 单个 状态 的 评估 和 改进 之 间 交 
蔡 变更 ， 来 避免 策略 评估 所 需 的 无 限 多 的 片段 《Episodes )。 






































































































































2.5) ” 增 量 蒙特 卡 罗 


从 算法 2.8 和 算法 2.9 中 可 以 看 出 , 我 们 需要 对 观察 到 的 回报 序列 求 平均 值 , 并 且 将 状态 价值 
和 状态 -动作 价值 的 估计 分 开 。 其 实 我 们 还 有 一 种 更 加 高 效 的 计算 办 法 , 它 能 让 我 们 把 回报 序列 省 
去 ， 从 而 简化 均值 计算 步 又。 这 样 一 来 ,我 们 就 需要 一 个 回合 一 个 回合 地 更 新 。 我 们 让 Q(S;, Ar) 
作为 它 已 经 被 选中 t 一 1 次 以 后 的 状态 -动作 价值 的 估计 ， 从 而 将 其 改写 为 


















































































































































a A) e Pr Wat - Tee (2.54) 





算法 2.9 蒙特 卡 罗 探 索 开 始 
初始 化 所 有 状态 的 x(s) 
对 于 所 有 的 状态 -动作 对 ， 初 始 化 @(s,a) 和 Returns(s, a) 
repeat 
随机 选择 So 和 4o， 直 到 所 有 状态 -动作 对 的 概率 为 非 零 
根据 T: So, Ao, Ro, $1, ST ST.a4, Ar-1, Ri 来 生成 So, Ao 
G —0 
t—T-1 
for t >= 0 do 
Ge yG + Rua 
if So, Ao, $1, Ay tg Os Aia 没有 Si, At then 
Returns(S;,, A;).append(G) 
Q(S,, Az) < mean(Returns(S;, Ai)) 
T(S) — arg max, Q(S;,a) 
end if 
tic—ti-1l 
end for 
until 收敛 
























































对 该 式 的 一 个 简单 实现 是 将 所 有 的 回报 G 值 都 记录 下 来 ， 然 后 将 它 的 和 值 除 以 它 的 访问 次 
数 。 然 而 ， 我 们 同样 也 可 以 通过 以 下 的 公式 来 计算 这 个 值 : 
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i=l 
= (Ge + (= DQ 
二 Qi 十 “(Gi — Q1) (2.55) 

















这 个 形式 可 以 让 我 们 在 计算 回报 的 时 候 更 加 容易 操作 。 它 的 通用 形式 是 : 























新 估计 值 二 旧 估计 值 + 步伐 大 小 : (目标 值 — 旧 估计 值 ) (2.56) 














“步伐 大 小 ”是 我 们 用 来 控制 更 新 速度 的 一 个 参数 。 











2.6 ”时间差 分 学 习 


时 间 差 分 (Temporal Difference, TD) 是 强化 学 习 中 的 另 一 个 核心 方法 , 它 结合 了 动态 规划 和 
蒙特 卡 罗 方 法 的 思想 。 与 动态 规划 相似 ， 时 间 差 分 在 估算 的 过 程 中 使 用 了 自 举 (Bootstrapping), 
但 是 和 蒙特 卡 罗 一 样 ， 它 不 需要 在 学 习 过 程 中 了 解 环境 的 全 部 信息 。 在 这 章 中 ， 我 们 首先 介绍 如 
何 将 时 间 差 分 用 于 策略 评估 ， 然 后 详细 阐释 时 间 差 分 、 蒙 特 卡 罗 和 动态 规划 方法 的 异同 点 。 最 后 ， 
我 们 会 介绍 Sarsa 和 Q-Learning 算法 ， 这 是 一 个 在 经 典 强化 学 习 中 很 有 用 的 算法 。 



















































































































































































2.61 时间差 分 预测 

从 这 个 方法 的 名 字 可 以 看 出 ， 时 间 差 分 利用 差异 值 进行 学 习 ， 即 目标 值 和 估计 值 在 不 同时 间 
步 上 的 差异 。 它 使 用 自 举 法 的 原因 是 它 需要 从 观察 到 的 回报 和 对 下 个 状态 的 估 值 中 来 构造 它 的 目 
标 。 具 体 来 说 ， 最 基本 的 时 间 差 分 使 用 以 下 的 更 新 方式 : 








































































































V(S;) — V(S) + alReri tyV(Sr1) — V (S) (2.57) 




















这 个 方法 也 被 叫 作 TDO), 或 者 是 单 步 TD 。 也 可 以 通过 将 目标 值 改 为 在 N 步 未 来 中 的 折扣 
回报 和 N 步 过 后 的 估计 状态 价值 (Estimated State Value) 来 实现 N 步 TD。 如 果 我 们 观察 得 足 
够 仔细 ， 蒙 特 卡 罗 在 更 新 时 的 目标 值 为 G:， 这 个 值 只 有 在 一 个 回合 过 后 才能 得 知 。 但 是 对 于 TD 
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来 说 ， 这 个 目标 值 是 Riga 十 YV (S441)， 而 它 可 以 在 每 














TD(0) 是 如 何 / 




















步 都 算出 。 





来 做 策略 评估 的 。 





算法 2.10 TD(0) 对 状态 值 的 估算 




















在 算法 2.10 中 ， 我 们 展示 了 





输入 策略 x 


初始 化 V(s) 和 步 长 € (0, 1] 
for 每 一 个 回合 do 


初始 化 So 


for 每 一 个 在 现 有 回合 的 S 
A, {s T(S) 
Fai $11 {= Env(Si, At) 
V(St) — V(S4) + o[ Rigi + YV (Si41) — V(Sj)] 








+ do 























end for 
end for 
这 里 分 析 一 下 动态 规划 、 蒙 特 卡 罗 和 时 间 差 分 方法 的 异同 点 。 它 们 都 是 在 现代 强化 学 习 中 的 
核心 算法 ， 而 且 经 常 是 被 结合 起 来 使 用 的 。 它 们 都 可 以 被 用 于 策略 评估 和 策略 提升 ， 它 们 之 间 区 














别 却 是 深度 强化 学 习 效 果 不 同 的 主要 来 源 之 一 。 
这 三 种 方法 都 涉及 泛 化 策略 迭代 GPU， 它们 主要 区 别 在 于 策略 评估 的 过 程 ， 
区 别 是 ， 动 态 规划 和 时 间 差 分 都 使 用 了 自 举 法 ， 而 蒙特 卡 罗 没 有 。 



























































{中 最 明显 的 
动态 规划 需要 整个 环境 模型 的 


所 有 信息 ， 但 是 蒙特 卡 罗 和 时 间 差 分 不 需要 。 进 一 步 地 ， 我 们 来 看 一 下 它们 的 学 习 目 标的 区 别 。 


v 








«(s) = Er [GSi = s] (2.58) 
= E [Rai T *4G44|9; = s] (2.59) 
= E [Rai ie Un (S441) | St = s] (2.60) 








公式 (2.58) 是 蒙特 卡 罗 方 法 的 状态 价值 估计 方式 ， 公 式 (2.60) 是 动态 规划 的 。 它 们 都 不 是 真 


正 的 状态 值 而 是 估计 值 。 时 间 差 分 则 把 蒙特 












































# 罗 的 采样 过 程 和 动态 规划 的 自 举 法 结合 









































在 我 们 就 简 册 








解释 实践 


时 间 差 分 可 以 比 动态 规划 或 才 


蒙特 卡 罗 更 有 效 的 原因 。 


















































使 | 











式 来 表示 一 个 回 








] 的 是 在 线 学 习 ， 这 也 就 意味 着 它 每 一 步 都 可 
后 再 学 习 ， 这 样 回 
















































































信息 而 不 需要 














合 。 另 外 ， 时 间 差 分 在 实践 中 往往 收敛 得 更 快 ， 



































E 











MAIER. TUS SEE DIESE) 





渐进 收敛 到 wur(s)。 


这 里 我 们 介绍 时 间 差 分 和 蒙特 11 
我 们 知道 在 监督 学 习 的 设置 下 , 较 大 的 偏差 往往 意味 着 这 个 模型 





,在 




























































































方差 伴随 较 低 的 偏差 往往 意味 3 
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因为 它 的 学 习 是 来 自 状态 转移 上 
里 想 情况 下 ， 两 种 方法 最 终 都 会 


了 起 来 。 现 


首先 ， 时 间 差 分 不 需要 一 个 模型 而 动态 规划 需要 。 将 时 间 差 分 与 蒙特 卡 罗 做 比较 ， 时 间 差 分 
以 学 习 ， 但 是 蒙特 卡 罗 却 只 能 在 一 个 回合 结束 以 
合 很 长 时 会 比较 难以 处 理 。 当 然 ， 也 存在 一 些 连续 性 的 问题 无 法 用 片段 式 的 形 





cr 


RY AE eM EAA (Bias and Variance Trade-off). 
VR CUnderfitting), 而 较 大 的 




















着 一 个 模型 过 拟 合 (Overfitting )。 一 个 拟 合 器 (Estimator) 的 偏差 














2.6 时间 差分 学 习 

















是 估计 值 和 真正 值 间 的 差异 。 我 们 对 状态 价值 进行 估计 时 ,偏差 可 以 被 定义 为 E[V (5:)] 一 V(51)。 
拟 合 器 的 方差 描述 了 这 个 拟 合 有 多 大 的 噪声 。 同 样 对 于 状态 价值 估计 ，, 方差 定义 为 E[(E[V(51)] 一 
V (94))*]。 在 预测 时 ， 不 管 它 是 状态 价值 估计 ， 还 是 状态 -动作 价值 估计 ， 时 间 差 分 和 蒙特 卡 罗 的 
更 新 都 有 如 下 形式 : 





































































































V (St) — V(S;) + o[TargetValue — V(S;)] 




















实质 上 ， 我 们 对 不 同 回合 进行 了 加 权 平 均 计 算 。 时 间 差 分 法 和 蒙特 卡 罗 法 在 处 理 目标 值 时 分 
别 采用 不 同 的 方式 。 蒙 特 卡 罗 法 直接 估算 到 一 个 回合 结束 累计 的 回报 。 这 也 正 是 状态 值 的 定义 ， 
它 是 没有 偏差 的 。 而 时 间 差 分 法 会 有 一 定 的 偏差 ， 因 为 它 的 目标 值 是 由 自 举 法 估计 得 到 的 ， 如 
Rigi 十 Yvr(Se41)。 男 一 方面 ， 蒙 特 卡 罗 法 ， 所 以 在 不 同 回 合 中 积累 到 最 后 的 回报 会 有 较 大 的 方 
差 由 于 不 同 回 合 的 经 过 和 结果 都 不 同 。 时 间 差 分 法 通过 关注 局 部 估计 的 目标 值 来 解决 这 个 问题 ， 
只 依赖 当前 的 奖励 和 下 一 个 状态 或 动作 价值 的 估计 。 自 然 地 ， 时 间 差 分 法 方差 更 小 。 

我 们 可 以 在 动态 规划 和 蒙特 卡 罗 之 间 找 到 一 个 中 间 方 法 来 更 有 效 地 解决 问题 ， 即 TD (A). 在 
此 之 前 ， 我 们 需要 先 介绍 资格 迹 〈Eligibility Trace) 和 4- 回报 CA-Return) 概念 。 

简单 来 说 ， 资 格 迹 可 以 给 我 们 带 来 一 些 计算 优势 。 为 了 更 好 地 了 解 其 优势 ， 我 们 需要 介绍 半 
梯度 (Semi-Gradient) 方法 ， 然 后 再 来 看 如 何 使 用 资格 迹 。 关 于 策略 梯度 方法 在 2.7 节 中 有 介绍 ， 
而 这 里 我 们 简单 地 使 用 一 些 策略 梯度 方法 中 的 概念 来 方便 解释 资格 迹 。 假 如 说 我 们 的 状态 价值 函 
数 不 是 表格 〈Tabular) 形式 而 是 一 种 函数 形式 ， 这 个 函数 由 矢量 w € R^ 参数 化 。 比 如 w 可 以 是 
一 个 神经 网 络 的 权重 。 为 了 得 到 V(s,w) © wxr(s)， 我 们 使 用 随机 梯度 更 新 来 减 小 估计 值 和 真正 
的 状态 价值 的 平方 损失 〈Quadratic Loss)。 权 重 向 量 的 更 新 规则 就 可 以 写 为 
















































































































































































































































































































































































































































































1 
Wt+1 = Wt 一 39 Vw. [vs (S1) = V (Si, wf 


= Ww + avs (St) ie: V(Si, wz:)|Vw,V (St, wi) (2.61) 














IT 








o 为 一 个 正 值 的 步 长 变量 。 
资格 迹 是 一 个 向 量 : zt € R*， 在 学 习 的 过 程 中 ,每 当 wi 的 一 个 部 分 被 用 于 估计 ， 则 它 在 z 
里 的 那个 相对 应 的 部 分 需要 随 之 增加 ， 而 在 增加 以 后 它 又 会 慢 慢 递减 。 如 果 轨 迹 上 的 资格 值 回落 
到 零 之 前 ， 有 一 定 的 TD 误差 ， 就 进行 学 习 。 首 先 把 所 有 资格 值 都 初始 化 为 0， 然后 使 用 价值 函 
数 的 梯度 来 增加 资格 迹 ， 而 资格 值 递 减 的 速度 是 YA。 资 格 迹 的 更 新 满足 如 下 公式 : 





























































































































z-1=0 (2.62) 
Zt = y¥AZt-1 + Vw. V (St, w) (2.63) 


























如 算法 2.11 所 示 ，TD(A) f FH VECES RS SEHE e ERU iE. BL, 4A=1IN, TD(A) BAR 
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> 


此 ， 资 格 迹 可 以 看 作 











特 卡 罗 法 ;而 当 A= 0 时 ， 它 就 变 成 了 一 个 单 步 TD (One-Step TD) iX. 
是 把 时 间 差 分 法 和 蒙特 卡 罗 法 相 结 合 的 一 个 方法 。 

















算法 2.11 状态 值 半 梯度 TD(A) 
输入 策略 7 
初始 化 一 个 可 求 导 的 状态 值 函数 v、 步 长 a 和 状态 值 函 数 权 习 
for 对 每 一 个 回合 do 














E 
& 


















































初始 化 So 

z<0 

for 每 一 个 本 回合 的 步骤 S, do 
使 用 7 来 选择 A, 


Rtr1, $11 c— Env(S;, At) 
z € yAz + VV (Sı, ux) 
ô — HE YV (Sia, wt) = V(Si, wi) 
w + w-aóz 
end for 
end for 























A-RE Za n 27 "n BO fi ERE. A- 回 报 是 nr 个 已 经 折扣 化 的 回报 和 一 个 在 最 后 一 步 状态 
下 的 估计 值 相 加 得 到 的 。 我 们 可 以 把 它 写作 : 
























































Gettin = Risi + YR +e t 2S Rin Toy" u(Stin, Ween—1) (2.64) 























t 是 一 个 不 为 零 的 标量 , 它 小 于 或 等 于 了 一 n。 我 们 可 以 使 用 加 权 平 均 回 报 来 估算 ,只 要 它们 
的 权重 满足 和 为 1。TD(4) 在 其 更 新 中 使 用 了 加 权 平 均 (A € [0, 1]): 















































G? = (1—A) 5 A" Gs (2.65) 
n=1 

















直观 地 讲 ， 这 就 意味 着 下 一 步 的 回报 将 有 最 大 的 权重 1— 4， 下 两 步 回 报 的 权重 是 (1— A)A. 
每 一 步 权重 递减 的 速率 是 4。 为 了 有 更 清晰 的 理解 ， 我 们 让 结束 状态 发 生 于 时 间 工 ， 从 而 上 面 的 
公式 可 以 改写 成 







































































T-t-1 
Gi =(1-A) M "Gus AT IG (2.66) 
n=1 
TD 误差 0, 可 以 被 定义 为 
Oz = Riz + YV (Sia, w) — V(S,, w) (2.67) 
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习 





2.0.2 Sarsa: 


选择 
价值 








这 个 更 新 规则 是 基于 TD 


对 于 TD 控 
的 转移 变 为 状态 -动作 对 的 交 蔡 。 这 样 





首 字 母 缩写 Saras 来 表示 这 个 算法 ， 
选择 了 一 个 动作 (A)， 同 时 也 观察 到 了 回 
一 个 新 的 动作 (A)。 这 样 的 过 程 让 我 
都 得 到 更 新 ， 更 新 后 的 状态 价值 会 影 

















误差 和 迹 的 比 





在 线 策略 TD 控制 
制 ， 我 们 使 用 的 方法 和 预测 任务 一 样 


























EMI. 52.11 里 有 其 细 





























Q(St, At) — Q(Si, At) + oa d 





的 更 新 规则 就 可 以 被 写 为 


当 S, 是 终止 状态 (Terminal State〉 的 时 候 ， 








大 





















































来 描述 这 样 一 类 算法 ， 它 们 的 更 新 策 
是 不 同 的 。Q-Learning 就 是 离线 策 














BR 














向 决定 动作 的 策略 ， 


t YQ(St41, Aca) ES 


Q(S:, Ai)] Q. 


下 一 个 状态 -动作 对 的 Q 值 就 会 变 成 0。 我 们 用 





为 我 们 有 这 样 的 一 个 行为 过 程 : 
报 〈R)， 然 后 我 们 就 到 了 另外 一 个 状态 〈S) 下， 需要 
门 可 以 做 一 个 简单 的 更 新 步骤 。 对 于 每 一 个 转移 ， 状 态 
即 在 线 策略 法 。 在 线 策略 法 一 般 用 























首先 在 一 个 状态 〈S) 下 


， 唯 一 的 不 同 是 ， 我 们 需要 将 从 状态 到 状态 


08) 




















M 
, 























EWS ALT SSMS (Behavior Policy) 同样 。 而 离线 策略 法 往往 




















各 算法 




























































































的 一 个 例子 。 我 们 会 在 之 后 的 章节 中 提 到 。Q-Learning 





























































































































































































































在 更 新 Q 函数 时 假设 了 一 种 完全 贪心 的 方法 ， 而 它 在 选择 其 动作 时 实际 上 用 的 是 另外 一 种 类 似 
于 e- 贪 心 (e-Greedy) 的 方法 。 现 在 我 们 在 算法 2.12 中 列 出 Sarsa 的 细节 。 在 每 一 个 状态 -动作 对 
都 会 被 访问 无 数 次 的 假设 下 ， 会 有 最 优 策略 和 状态 动作 价值 的 收敛 性 保证 。 
算法 2.12 Sarsa (在 线 策略 TD 控制 ) 
对 所 有 的 状态 - 动作 对 初始 化 Q(s, a) 
for 每 一 个 回合 do 
TUR So 
一 个 基于 Q 的 策略 来 选择 Ao 
for 每 一 个 在 当前 回合 的 S do 
个 基于 Q 的 策略 从 S, 选择 A, 
M $41 c— Env(S;, A t) 
从 Sua 中 用 一 个 基于 Q 的 策略 来 选择 4,+1 
Q(S;, At) — Q(S:, At) + oi + YQ(St41, Ar1) — Q(St, Ai)] 
end for 
end for 
上 面 展 示 的 方法 只 有 一 步 的 时 间 范 围 ， 这 就 意味 着 它 的 估算 只 需要 考虑 下 一 步 的 状态 -动作 
价值 。 我 们 把 它 叫 作 单 步 Sarsa 或 者 Sarsa(0)。 我 们 可 以 简单 地 使 用 自 举 法 把 未 来 的 步骤 也 都 容 
纳 到 目标 值 中 从 而 减少 它 的 偏差 。 从 图 2.12 的 回溯 树 展示 中 ， 我 们 可 以 看 见 Sarsa 很 多 不 同 的 变 
体 。 从 最 简单 的 一 步 Sarsa 到 无 限 步 Sarsa， 也 就 是 蒙特 卡 罗 方 法 的 另外 一 个 形态 。 为 了 把 这 样 的 
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一 个 变化 融入 原来 的 方法 ， 我 们 需要 把 折扣 回报 写 为 
Gin = Regi + Riga te $Y Bas $Y" Qt4n—1 (Stn, Attn) (2.69) 
一 步 Sarsa 两 步 Sarsa 三 步 Sarsa ee 
图 2.12 XF nz Sara 方法 的 回溯 树 。 每 一 个 黑色 的 圆圈 都 代表 了 一 个 状态 ， 每 一 个 白色 的 加 















































圈 都 代表 了 一 个 动作 。 在 这 个 无 穷 多 步 的 5Sarsa 里 ， 最 后 一 个 状态 就 是 它 的 终止 KAS 
























































n 2P Sarsa 已 经 在 算法 2.13 中 有 所 描述 了 。 和 单 步 版 本 最 大 的 不 同 是 ， 它 需要 回 到 过 去 的 时 
间 来 做 更 新 ， 而 单 步 的 版 本 只 需要 一 边 向 前 进行 一 边 更 新 即 可 。 
现在 讨论 Sarsa 算法 在 有 限 的 动作 空间 里 的 收敛 理论 。 我 们 首先 需要 以 下 的 几 个 条 件 。 
定义 2.1 一 个 学 习 策 略 被 定义 为 : 在 无 限 的 探索 中 的 极限 贪 禁 (Greedy in the Limit with Infinite 
Exploration, GLIE)。 如 果 它 能 够 满足 以 下 两 个 性 质 : 1. 如 果 一 个 状态 被 无 限 次 访问 ,那么 在 该 状态 
下 的 每 个 可 能 的 动作 都 应 当 被 无 限 次 选择 ， 即 lim, yoo Ni(s,a) = 00,Va,iflimy_ywo Ni(s) = co。 
2. 策略 根据 学 习 到 的 Q 函数 在 t 一 oo 的 极限 下 收 化 到 一 个 贪 禁 策略 ， 即 lim sss m (s,a) = 
1(a == argmaxa'eA Qx(s,a')), 其 中 “==” 是 一 个 比较 算 子 ， 当 1(a--b) 的 括号 内 为 真 时 ， 它 
的 值 为 1， 否 则 为 0。 
人 
的 强化 学 习 算法 来 说 ， 它 都 成 立 。 举 例 来 说 ， 我 们 可 以 通过 e 贪心 方法 来 推导 出 一 个 GLIE 的 策 
略 ， 如 下 : 
引 理 2.1 de X e 以 ex — x UAR k HA m ADS TUE, IA e- 贪 心 是 GLIE。 
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算法 2.13 n 4 Sarsa 
对 所 有 的 状态 -动作 对 初始 化 @(s, a) 
初始 化 步 长 € (0,1] 
决定 一 个 固定 的 策略 m 或 者 使 用 e- 贪 心 策略 
for 每 一 个 回合 do 
初始 化 So 
使 用 (So, A) 来 选择 Ao 
T —INTMAX (一 个 回合 的 长 度 ) 
y —0 
for t — 0,1,2,--- until — T — 1 do 
if t < T then 
Rizvi, $4 c— Env(S;, At) 
if $,,4 是 终止 状态 then 
























































































































































T —t-1 
else 
使 用 T (Si, A) 来 选择 Ata 
end if 
end if 
T-—t—n41 (更 新 的 时 间 点 。 这 是 nn 步 Sarsa， 只 需 更 新 nn 十 1 前 的 一 步 ， 持 续 下 去 直 
到 所 有 状态 都 被 更 新 。) 
if 7 > 0 then 
Cex gas 


if y +n < T then 
G — G t Y" Q(Sios, Aytn) 
end if 
Q(S5, Ay) — Q(S,, Ay) + o[G — Q(S,, Ay)] 
end if 
end for 
end for 

















KAMRA T Sarsa 算法 的 收敛 定理 。 


定理 2.1 对 于 一 个 有 限 状态 -动作 的 MDP 和 一 个 GLIE 学 习 策略 ， 其 动作 价值 函数 Q AMT IA) Ht 
上 由 Sarsa 〈 单 步 的 ) 估计 为 Q:， 那 么 如 果 以 下 两 个 条 件 得 到 满足 ，Qi 会 收敛 到 Q* 并 且 学 习 策 
略 m, BAA RERE mU: 

1. Q 的 值 被 存储 在 一 个 查找 表 (Lookup Table) 里 ; 

2. 在 时 间 t 与 状态 -动作 对 (s,a) 相关 的 学 习 速 率 (Learning Rate) a;,(s, a) 满足 0 € ar(s,a) € 1, 
>, at(s,a) 2 oo, $5,02(s, a) <œ, ŽE ow(s,a) = 0 除非 (s,a) = (St, At); 

3. 方差 Var[R(s,a)] < co。 






































符合 第 二 个 条 件 对 学 习 速率 的 要 求 的 一 个 典型 数列 是 (St, Ay) = +。 我 们 在 这 里 对 上 面 定 
里 的 证 明 不 做 介绍 ， 有 兴趣 的 读者 可 以 查看 文献 (Singh et al., 2000). 
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2.0.3 





Q-Learning 是 一 种 离线 











目标 值 现在 不 





4 


a 


























Q(Si, At) — Q(Si, At) + o Ria 4 


Q-Learning: 离线 策略 TD 控制 











策略 方法 ， 与 Saras 很 类 似 ， 在 深度 学 习 应 用 : 
深度 Q 网 络 (Deep Q-Networks ) 。 如 公式 (2.70) 所 示 ，Q-Learning 和 Sarsa 了 
再 依赖 于 所 使 用 的 策略 ， 而 只 依赖 























pA 


很 容易 ， 
fi. E 
st (2.70) 里 的 














可 以 先 基 


















































目标 值 加 入 未 





算法 2.14 Q-Learning (离线 策略 TD j 


在 算法 2.14 中 ， 我 们 展示 了 如 何 
于 状态 和 回 
四 展示 的 是 单 步 Q-Learning， 我 人 























有 很 重要 的 作用 




















， 如 














于 状态 -动作 价值 函数 。 


Q(St41, a) iam Q(S;, A)] 








报 选 择 动作 




















站 
来 的 折扣 后 的 


H 








th o 








ZAD 




















主要 的 区 别 是 ， 它 的 


(2.70) 





J Q-Learning 控制 TD。 将 Q-Learning 变 成 Sarsa 算法 也 
， 然 后 在 更 新 步 中 将 目标 值 改 为 估计 的 下 一 步 动 作价 
也 可 以 把 Q-Learning 变 成 nn 步 的 版 本 。 

















LA BOE EG ZS 











初始 化 所 有 的 状态 -动作 对 的 Qs, a) KEK a € (0,1) 


for 每 一 个 回合 do 
初始 化 So 


for 每 一 个 在 当前 回合 的 S, do 
使 用 基于 Q 的 策略 来 选择 A, 

















Rizvi, $a zm Env(S; 





, At) 


Q(S;, At) — Q(S;, At) + a[Rep1 + y maxa Q(St41, a) — Q(Si At)] 


end for 
end for 





Q-Learning 的 收敛 性 条 件 和 Sarsa 算 法 的 很 类 似 。 


除了 对 策略 有 的 GLIE 414 














函数 的 收敛 还 对 学 习 速率 和 


























有 界 奖 励 值 要 求 ， 这 里 不 























1998; Watkins et al., 1992) ! 





2.7 ”策略 优化 


复述 











找到 。 


, 





























; Q-Learning F Q 


LAS AYE BA nf LAE SCHR (Szepesvári, 





2.7.1 简介 


在 强化 学 习 中 ， 智 能 体 
改进 叫 策略 优化 〈 图 2.13 )。 



































的 最 终 目 
对 深度 强化 学 习 而 





=> A 


Fo W 











K, 因此 可 以 使 用 基于 梯度 的 优化 方法 。 举 例 来 说 ， 


标 是 改进 它 的 策略 来 获得 
略 和 价值 函数 通常 











的 概率 图 模型 (Graphical Model)， 其 中 策略 由 变量 0 参数 


内 。 
可 以 


奖励 函数 表示 为 Ru 
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R(St, At)， 而 动作 表示 为 A ~ 





iR 


好 的 奖 
































图 2.14 展 











示 了 了 











化 ， va 





1 (550). 








FH 


FE 离散 时 间 范 





励 。 在 优化 范畴 下 的 策略 
深度 神经 网 络 : 
使 用 参数 化 策略 的 MDP 














的 变量 








t=0,---,N-1 








图 模型 ， 





变量 的 依赖 关系 




















帮助 我 们 理解 MDP 估计 中 的 潜在 关系 ， 而 且 可 以 有 助 于 我 








门 在 依赖 关系 图 


中 对 最 终 目 标 求 


2.7 策略 优化 








导 而 优化 变量 有 帮助 ， 因 此 我 们 将 在 本 章 

















展示 所 有 的 图 模型 来 帮助 理解 推导 过 程 ， 尤 其 对 那些 可 




















微分 的 过 程 。 近 来 ,文献 (Levine, 2018) 和 文献 (Fu et al., 2018) 提出 了 一 种 “推断 式 控制 (Control 


as Inference)” 的 方法 ， 这 个 方法 在 MDP 的 图 模型 上 添加 了 额外 的 表示 最 优 性 








量 ， 从 而 


562] (M 











将 概率 























可 以 应 用 

















E (Optimality) 的 变 





















































GEN 
































IE WT BE 7 HE LT (Variational Inference) BE 2 t zr 21-4 TH IB] H BST] SCA 8 15 


aximum Entropy Reinforcement Learning〉 中 。 这 个 方法 使 得 推断 类 工具 CInference Tools) 





到 强化 学 习 的 策略 优化 过 程 中 。 但 是 关于 这 些 方法 的 具体 细节 超出 了 本 书 范围 。 






价值 函数 







ActorCritic 
(QAC, A2C, 
A3C 等 ) 


QT-Opt 















基于 策略 
(REINFORCE, CE 方法 ) 


基于 价值 


(Q-Learning, DON) 





A213 强化 学 习 中 策略 优化 概览 























t=0,1,---,T-1 

















图 2.14 使 用 参数 化 策略 的 MDP 概率 图 模型 














除了 一 些 线性 方法 ， 使 用 深度 神经 网 络 对 价值 函数 参数 化 是 一 种 实现 价值 函数 拟 合 〈Value 








情况 











Vr (St) 的 MDP 概率 图 模型 ， 它 们 的 参数 化 过 程 分 别 使 用 了 参数 0 和 w. A 2.16 展示 了 使 用 参 







































































可 

















Function Approximation〉 的 方式 ， 而 这 是 现代 深度 强化 学 习 领 域 中 最 普遍 的 方式 ， 而 在 多 数 实际 


， 我 们 无 法 获得 真实 的 价值 函数 。 图 2.15 展示 了 使 用 参数 化 策略 re 和 参数 化 价值 函数 
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数 化 策略 re 和 参数 化 Q 值 函数 QT. (St, AL) 的 MDP 概率 图 模型 。 一 般 通过 在 强化 学 习 术 语 中 
被 称 为 策略 梯度 (Policy Gradient) 的 方法 改进 参数 化 策略 。 然 而 ， 也 有 一 些 非 基于 梯度 的 方法 
(Non-Gradient-Based Methods) UJ URUAR A EZ BIER. Ens XU; CCross-Entropy; 
CE) 方法 等 。 














































































































图 215 ”使 用 参数 化 策略 和 参数 化 价值 函数 的 “区 ARAL £k E eg Y b 
MP für pr m 246 ooo 
























































如 图 2.13 所 示 , 策略 优化 算法 往往 分 为 两 大 类 :(1) 基于 价值 的 优化 (Value-Based Optimiza- 
tion) 方法 ， 如 Q-Learning. DQN 等 ， 通 过 优化 动作 价值 函数 〈Action-Value Function) 来 获得 对 
动作 选择 的 偏好 ; (2) 基于 策略 的 优化 〈Policy-Based Optimization) 方法 ， 如 REINFORCE, X 
又 炉 算法 等 ， 通 过 根据 采样 的 奖励 值 来 直接 优化 策略 。 这 两 类 的 结合 被 人 们 (Kalashnikov et al., 
2018; Peters et al., 2008; Sutton et al., 2000) 发 现 是 一 种 更 加 有 效 的 方式 ， 而 这 构成 了 一 种 在 无 模型 
(Model-Free) 强化 学 习 中 应 用 最 广 的 结构 ， 称 为 Actor-Critic。Actor-Critic 方法 通过 对 价值 函数 
的 优化 来 引导 策略 改进 。 在 这 类 结合 型 算法 中 的 典型 包括 ActorCritic 类 的 方法 和 以 其 为 基础 的 
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2.7 策略 优化 
































其 他 算法 ， 后 续 有 关于 这 些 算法 的 详细 介绍 。 








回顾 强化 学 习 梗 概 














在 线 价值 函数 COn-Policy Value Function)，wr(s)， 给 出 以 状态 s 为 起 始 并 在 后 续 过 程 始 终 遵 
循 策略 r 的 期 望 回 报 (Expected Return): 























Un(s) = Eus [R(T)|So = s] (2.71) 











强化 学 习 的 优化 问题 可 以 被 表述 为 


T, = arg max J (r) (2.72) 




















最 优 价值 函数 (Optimal Value Function), v*(s), 给 出 以 状态 s 为 起 始 并 在 后 续 过 程 始终 遵循 
环境 中 最 优 策略 的 期 望 回 报 ; 

















v.(s) = max vz (s) (2.73) 





vx(s) = max ira |R(T)|So = s] (2.74) 











在 线 动作 价值 函数 〈On-Policy Action-Value Function), g,(s,a), A HE LAS s 为 起 始 并 采取 




















任意 动作 a (有 可 能 不 来 自 策略 )， 而 随后 始终 遵循 策略 r 的 期 望 回报 : 
q«(s,a) = Er~x[R(T)|So = s, Ao = a] (2.75) 











最 优 动作 价值 函数 (Optimal Action-Value Function )，g; (s, a)， 给 出 以 状态 s 为 起 始 并 采取 任 



































意 动作 ag， 而 随后 始终 遵循 环境 中 最 优 策略 的 期 望 回 报 : 
q.(s, a) = max q«(s,a) (2.76) 
q«(s, a) = max EL. [R(T)|So = s, Ao = q] (2.77) 


价值 函数 (Value Function) 和 动作 价值 函数 (Action-Value Function) 的 关系 : 











Un(s) = a~r [Qs (5, a)] (2.78) 
v.(s) = max q.(s,a) (2.79) 
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最 优 动 作 : 
ax (5) = arg max q, (s, a) 

贝尔 曼 方 程 : 
对 状态 价值 和 动作 价值 的 贝尔 曼 方程 分 别 为 : 

Us (s) = Egnn(.|s),s’~p(-|s,a) [R(5, a) + Yon (")] 

qr (5, a) = Ls! ~p(-|s,a) [R(s, a) 十 了 4a! ~7(-|s’) [a (s’, a')]] 
贝尔 曼 最 优 方程 : 
对 状态 价值 和 动作 价值 的 贝尔 曼 最 优 方程 分 别 为 : 
vx (8) = max Eja) [R(s, a) + yv. (s')] 
q.(s, a) = Ey npy.|s,a)[R(8, a) + ymax q.(s’,a’)] 


2.7.2 ”基于 价值 的 优化 


基于 价值 的 优化 (Value-Based Optimization) 方法 经 常 需要 在 (1) 基于 : 
估计 和 “2) 基于 所 估计 的 价值 函数 进行 策略 优化 这 两 个 过 程 之 间 交 替 。 久 
价值 函数 并 不 容易 ， 如 图 2.17 所 示 。 
从 之 前 小 节 中 我 们 可 以 看 到 ，Q-Learning FY LAB FAR AR 





















































强化 学 习 中 一 














(2.80) 


(2.81) 
(2.82) 


(2.83) 


(2.84) 


| i 


4 前 策略 的 价值 函数 








而， 估计 一 个 复杂 的 


些 简单 的 任务 。 然 而 ， 


























现实 世界 或 者 即使 准 现实 世界 中 的 应 用 也 都 可 能 














更 大 和 更 复杂 的 状态 动作 空间 ， 而 且 实际 应 用 


























在 这 些 情况 





129 10179 个 状态 。 












































中 很 多 动作 是 连续 的 。 比 如 ， 在 围棋 游戏 中 
KERERE 

















的 





P. Q-Learning ! 


ERK (Lookup Table) 方法 因为 每 个 状态 需要 有 























条 记录 (Entry) 而 每 个 状态 -动作 对 也 需 
等 提升 。 实 践 中 ， 这 个 表 中 的 值 需要 一 个 























Q(s,a) 记录 而 使 其 可 扩展 性 〈Scalability) 有 待 

















Thy 女 











个 地 更 新 。 所 以 





基于 表格 CTabular-Based) 的 Q-Learning 对 内 存 和 计算 资源 的 需求 可 能 








此 外 ， 在 实践 ! 








价值 函数 拟 合 





， 状 态 表征 (State Representations) 通常 











是 巨大 的 。 
匹配 的 数据 结构 。 





也 需要 人 为 指定 成 相 














为 了 将 基于 





价值 的 强化 当 


习 应 用 





到 相对 大 规模 的 介 








EZE, KAMAA (Function Approxima- 



































tors) 可 


和 (5)) 的 线性 
用 线性 函数 拟 合 器 而 被 证 
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来 应 对 上 述 限制 条 件 ( 图 
。 线 性 方法 (Linear Methods): 拟 合 函数 是 权重 0 和 特征 实数 应 





























图 2.18 总 结 了 不 同类 型 





2.18)。 




















4 的 价值 函数 拟 合 器 。 
= bs) = (91(5), $2(8)), +, 














ge, Hi 


s 是 状态 。 拟 合 函 数 表 示 为 v(s,0) = 0T G(s). TDA) 方法 因 使 














明 在 一 定 








条 件 下 可 以 收敛 (Tsitsiklis et al., 1997)。 尽 管线 性 方法 的 





2.7 策略 优化 








= 


[动作 或 观察 量 空 








| 简单 且 离散 | 


表格 方法 














价值 函数 拟 合 











法 | 


v 
| 非 线性 方法 | 





其 他 方法 ] 





多 项 式 、 傅 立 叶 基 、 


粗略 编码 、 地 砖 编 
码 、 径 向 基 函 数 等 

















S 


ASA BERI 


图 


Q (s.a; w) 





g 


S a 





决策 树 、 最 近邻 、 
基于 核 的 方法 等 





Q (8,04; 


2.7. 求解 价值 函数 的 方法 概览 


w) ... Q (s,a,; W) 


S 


248 不 同 的 价值 函数 拟 合 方式 。 内 含 


ME. 数 


续 动 作 ) 

















果 证 很 请 人 ， 但 实际 上 在 使 / 
构建 特征 的 不 同方 式 : 


收敛 性 
是 线性 方法 ! 














- SIX (Polynomials): 基本 的 多 项 式 族 (Polynomial Families) 可 以) 





























该 方法 时 特征 





BR w 的 灰 


动作 价值 函数 
( 离散 动作 ) 


色 方 框 是 函数 拟 合 器 











选取 或 特征 表示 %(s) 有 一 定 难度 。 如 下 














j 作 函数 拟 合 的 特 



































{EA (Feature Vectors )。 假 设 每 一 个 状态 s = (S1, S2, Sa)? 是 一 个 d HAS, I 
么 我 们 有 一 个 d 维 的 多 项 式 基 (Polynomial Basis) 9;(s) = i ,9;7, HET cij 
是 集合 (0,1, , 和} 中 的 一 个 整数 。 这 构成 秩 (Order) 为 N 的 多 项 式 基 和 和 (N+1)4 
个 不 同 的 函数 。 
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。 非 线 ' 





傅立叶 基 (Fourier Basis): 傅立叶 变换 (Fourier Transformation) 经 常 























} 
/ 











于 表示 在 时 间 





域 或 频率 域 的 序列 信号 。 有 NN 十 1 个 函数 的 一 维 秩 为 NN 的 傅立叶 余弦 (Cosine) 基 为 























pils) = cos(ins), 其 中 sel[l0,1] 且 i=0,1,.….,N。 
























































粗略 编码 (Coarse Coding): 状态 空间 可 以 从 高 维 缩减 到 低 维 ， 例 如 








一 个 区 域 覆 盖 决 


定 过 程 (Determination Process) 来 进行 二 值 化 表示 〈Binary Representation)， 这 被 称 为 





粗略 编码 。 





瓦 式 编 码 (Tile Coding): 在 粗略 编码 中 ， 瓦 式 编码 对 于 多 维 连 续 空间 是 一 种 高 效 的 特 
征 表示 方式 。 瓦 式 编码 中 特征 的 感知 域 (Receptive Field) 被 指定 成 输入 空间 的 不 同 分 
















































































i 〈Partitions )。 每 一 个 分 割 称 为 一 个 瓦 面 (Tilling)， 而 分 割 中 的 每 一 个 元 素 称 为 一 个 
瓦 片 (Tile)。 许 多 有 着 重合 感知 域 的 瓦 面 往往 被 结合 使 用 ， 以 得 到 实际 的 特征 矢量 。 








Ee) 62M (Radial Basis Functions, RBF): Ase Zi Ep ARIZ 45 SHAR OS, T 
























































咯 编码 是 二 值 化 的 ， 而 径 向 基 函 数 可 用 于 [0, 1] 内 的 连续 值 特征 。 典 型 的 RBF 是 以 高 


斯 函数 (Gaussian) 的 形式 ¢;(s) = exp- EZS), 3th s 是 状态 ，c; 是 特征 的 原型 








(Prototypical) 或 核心 状态 〈Center State), Ti e; 是 特征 宽度 〈Feature Width). 


性 方法 (Non-Linear Methods): 


T 














AL#AP (Artificial Neural Networks): 不 同 于 以 上 的 函数 拟 合 方法 , 人 工 神经 网 络 
被 广泛 用 作 非 线性 函数 拟 合 器 ， 它 被 证 明 在 一 定 条 件 下 有 普遍 的 拟 合 能 力 (Universal 





























Approximation Ability) (Leshno et al., 1993)。 基 于 深度 学 习 技术 ， 人 工 神经 网 络 构成 了 
现代 基于 函数 拟 合 的 深度 强化 学 习 方 法 的 主体 。 一 个 典型 的 例子 是 DQN 算法 ， 使 用 
























































人 工 神 经 网 络 来 对 Q 值 进行 拟 合 。 


。 其 他 方法 : 



































决策 树 (Decision Trees): 决策 树 (Pyeatt et al., 2001) 可 以 用 来 表示 状态 空间 ， 通 过 使 
用 决策 节点 (Decision Nodes) 对 其 分 割 。 这 构成 了 一 种 重要 的 状态 特 行 








ERAN TT IE 

















最 近邻 《Nearest Neighbor) 方法 : 它 测 量 了 当前 状态 和 内 存 中 之 前 状态 的 差异 ， 并 用 








内 存 中 最 接近 状态 的 值 来 近似 当前 状态 的 值 。 
































使 用 价值 函数 拟 合 的 好 处 不 仅 包括 可 以 扩展 到 大 规模 任务 ， 以 及 便于 在 连 
行 从 所 见 状 态 到 未 见 过 状态 的 泛 化 ， 而 且 可 以 减少 或 缓解 人 为 设计 特征 来 表示 
于 无 模型 方法 ， 拟 合 器 的 参数 w 可 以 用 蒙特 卡 罗 (Monte-Carlo，MC) 或 时 间 差 
样本 进行 参数 更 新 而 非 像 基 于 表格 上 
计算 效率 。 对 基于 模型 的 方法 ， 参 数 可 以 用 动态 规划 
(Dynamic Programming, DP) 来 更 新 。 关 于 MC、TD 和 DP 的 细节 在 之 前 已 经 有 所 介绍 。 

可 能 的 函数 拟 合 器 包括 特征 的 线性 组 合 、 神 经 网 络 、 决 策 树 和 最 近邻 方法 等 。 神 经 网 络 因 其 














Difference, 


更 新 。 这 使 得 处 理 大 规模 问题 时 有 较 高 上 
























































TD) 学 习 来 更 新 ， 可 以 对 批 


fit 




















cr 

































































续 状 态 空 间 中 进 
状态 的 需要 。 对 











4] (Temporal 


的 方法 一 样 逐个 















































很 好 的 可 扩展 性 和 对 多 样 函数 的 综合 能 力 而 成 为 深度 强化 学 习 方法 中 最 实用 的 拟 合 方法 。 神 经 网 
络 是 一 个 可 微分 方法 ， 因 而 可 以 基于 梯度 进行 优化 ， 这 提供 了 在 凸 〈Convex) K 


最 优 的 保 订 
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FE。 然而 ， 实 践 中 ， 它 可 能 需要 极 大 量 的 数据 来 训练 ， 而 且 可 能 造成 其 











数 情况 下 收敛 到 


他 

















困难 。 














2.7 策略 优 


化 








将 深度 学 习 问 题 扩展 到 强化 学 习 带 来 了 额外 的 挑战 ， 包 括 非 独立 同 分 布 (Not Independently 
and Identically Distributed〉 的 数据 。 绝 大 多 数 监 督学 习 方法 建立 在 这 样 一 个 假设 之 上 ， 即 训练 
据 是 从 一 个 稳定 的 独立 同 分 布 (Schmidhuber, 2015) 中 采样 得 到 的 。 然 而 ， 强 化 学 习 中 的 训练 数据 
























































通常 包括 高 度 相 关 的 样本 ， 它 们 是 在 智能 体 和 环境 交互 中 | 




















独立 性 条 件 。 更 粮 的 是 ， 强 化 学 习 中 的 训练 数据 分 布 通常 是 不 稳定 的 ， 因 为 价值 函数 经 常 根据 
前 策略 来 估计 ， 或 者 至 少 受 当前 策略 对 状态 的 访问 频率 影响 ， 而 策略 是 随 训练 一 直 在 更 新 的 。 
能 体 通 过 对 在 状态 空间 探索 不 同 部 分 来 学 习 。 所 有 这 些 情况 违反 了 样本 数据 来 自 同 分 布 的 条 件 。 









































在 强化 学 习 中 使 用 价值 函数 拟 合 对 表征 方式 





























" 


页 序 得 到 的 ， 而 这 违反 了 监督 学 习 中 的 


M 













































































出 有 一 些 实际 要 求 ， 而 如 果 没 有 适当 地 考虑 到 
些 实际 要 求 , 将 可 能 导致 发 散 的 情况 的 发 生 (Achiam et al., 2019)。 有 具体 来 说 , 不 稳定 性 和 发 散 带 
的 危险 在 以 下 三 个 条 件 同 时 发 生 时 就 会 产生 : (1) 在 一 个 转移 分 布 (Distribution of Transitions) 上 






































训练 ， 而 这 个 分 布 不 满足 由 一 个 过 程 自然 产生 























这 个 过 程 的 期 望 值 被 估计 〈 比 如 在 离线 学 习 ! 

















的 条 件 ;(2) 可 扩展 的 函数 拟 合 ， 比 如 ,线性 半 梯 度 ( 
比如 DP 和 TD 学 习 。 这 三 个 主要 属性 只 有 在 它们 被 结合 
三 件 套 (the Deadly Triad) (Van Hasselt et al., 2018)。 在 使 月 
基于 价值 的 方法 使 用 函数 拟 合 时 可 能 会 有 过 估计 或 欠 
例 来 说 ， 原 始 DQN A Q 值 过 估计 COver-Estimation? 的 问题 (Van Hasselt et al., 2016)， 这 在 实践 
中 会 导致 略 差 的 学 习 表 现 ， 而 Double/Dueling DQN 技术 被 提 H 
了 更 好 的 收敛 全 


































































































策略 梯度 的 基于 策略 的 方法 相 比 基 于 价值 的 方法 





基于 梯度 的 价值 函数 拟 合 


考虑 参数 化 的 价值 函数 Vr(s) = VT (s; w) 8& Q7(s,a) = Q@r(saiu)， 我 们 可 以 基于 不 同 的 估 
计 方 法 得 到 相应 的 更 新 规则 。 优 化 目标 被 设置 为 估计 函数 VT (s; w) CER Q7 (s, a; w) 和 真实 价值 







































































Semi-Gradient); (3) 


智 





这 
来 



































) 


| 4§ (Bootstrapping), 
时 会 导致 学 习 的 发 散 ， 而 这 被 称 为 死亡 





月 函数 拟 合 的 方式 不 足够 公正 的 情况 
tiit COver-/Under-Estimation) 的 问题 。 











来 缓解 这 个 问题 。 总 体 来 说 ， 使 用 





保证 。 











函数 wxr(s) CB gx (s,a)) 间 的 均 方 误差 (Mean-Squared Error, MSE): 





J(w) = Ex[(V"(s; w) — v«(s))] 




















J(w) = Ex[(Q*(s,4; w) — q= (s, a))’] 
































Aw = a(V"(s; w) — v,(s)) VV" (s; w) 





对 此 ， 用 随机 梯度 下 降 (Stochastic Gradient Descent) 法 所 得 到 的 梯度 为 


M 
, 


x 























(2.85) 


(2.86) 


(2.87) 
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Aw = a(Q" (s, a; w) — qr (8, 4))VwQ" (s, a; w) (2.88) 











其 中 梯度 对 批 中 的 每 一 个 样本 进行 计算 ， 而 权重 以 一 种 随机 的 方式 进行 更 新 。 的 目 
标价 值 函数 vr 或 qu 通常 是 被 估计 的 ， 有 时 使 用 一 个 目标 网 络 (DQN 中 ) 或 一 个 最 大 化 算 子 
(Q-Learning H) 等。 我 们 在 这 里 展示 价值 函数 的 一 些 基 本 估计 方式 。 






































































































































对 MC 估计 ， 目 标 值 是 用 采样 的 回报 G 估计 的 。 因 此 ， 价 值 函数 参数 的 更 新 梯度 为 










































































Aw; = a(V™ (85; wi) — Gi) Vw, V" (Ss; ux) (2.89) 
或 
Aw, = a(Q" (Si, Ar; we) — Gi+1)V w Q7 (St, At; wi) (2.90) 
对 TD(0), 根 据 式 (2.84) 表 示 的 贝尔 曼 最 优 方程 ,目标 值 是 时 间 差分 的 目标 函数 Re 十 yYVi (Stt; We)» 
因此 : 
Aw, = o(V* (St; we) — (Re + WV (Sici w))) Vw, V" (St; we) (2.91) 
或 
Aw, = a(Q" (Si, Ar; we) — (Retr + YQs (Stt, Aca wi) Vw Q" (St, At; wi) (2.92) 
对 TD()， 目 标 值 是 4- 回报 即 G4， 因此 更 新 规则 是 
Aw; = a(V" (Sy; we) — G2)V w V” (Sy; we) (2.93) 
或 
Aw, = a(Q" (S, Ar; we) — Gr?) Vu, Q" (Sy, Ar; w) (2.94) 

















不 同 的 估计 方式 对 偏差 和 方差 有 不 同 的 侧重 
估计 方法 等 。 


这 在 之 前 的 小 节 中 已 经 有 所 介绍 ， 比 如 MC 和 TD 























88 


2.7 策略 优化 





例子 : 深度 Q 网 络 



































深度 Q 网 络 (DQN) 是 基于 价值 优化 的 典型 例子 之 一 。 它 使 用 一 个 深度 神经 网 络 来 对 Q- 
Learning 中 的 Q 值 函数 进行 拟 合 ， 并 维护 一 个 经 验 回放 缓存 (Experience Replay Buffer) 来 存储 





























智能 体 -环境 交互 中 的 转移 样本 。DQN 也 使 用 了 一 个 目标 网 络 QT， 而 它 由 原 网 络 Q NSB 


























本 





ns 














来 参数 化 ， 并 且 以 一 种 延迟 更 新 的 方式 ， 来 稳定 学 习 过 程 ， 也 即 缓解 深度 学 习 中 非 独立 同 分 布 数 















































据 的 问题 。 它 使 用 如 式 (2.88) 中 的 MSE 损失 ， 以 及 
代 真 实 价值 函数 dao 
































贪心 的 拟 合 函数 7 十 ymaxa, QT (s', a^) 8 




















经 验 回 放 缓 存 为 学 习 提供 了 稳定 性 ， 因为 从 缓存 ! 




















4 

















自 先前 策略 的 样本 间 的 差异 。 








2.7.3 ”基于 策略 的 优化 


在 开始 介绍 基于 策略 的 优化 (Policy-Based Optimization) 之 前 ， 我 们 首先 介绍 在 强化 学 习 : 


























采样 到 的 随机 批量 样本 可 以 缓解 非 独立 同 








分 布 的 数据 问题 。 这 使 得 策略 更 新 成 为 一 种 离线 的 (Off-Policy) 方式 ， 由 于 当前 策略 和 缓存 中 来 





























常见 的 一 些 策略 。 如 之 前 小 节 中 所 介绍 ,强化 学 习 中 的 策略 可 以 被 分 为 确定 性 (Deterministic) 和 
BENLE (Stochastic) 策略 。 在 深度 强化 学 习 中 ， 我 们 使 用 神经 网 络 来 表示 这 两 类 策略 ， 称 为 参数 












































化 策略 〈Parameterized Policies)。 具 体 来 说 ， 这 里 的 参数 化 指 抽象 的 策略 用 神经 网 络 〈 包 括 单 层 




















X 
















































































感知 机 ) 参数 来 ， 而 非 其 他 参量 来 表示 。 使 用 神经 网 络 参数 0， 确 定性 和 随机 性 策略 可 以 分 别 写 











VE A, = po (St) 和 Ay ~ Toll St) 



































在 深度 强化 学 习 领 域 ， 有 一 些 常 见 的 具体 分 布 用 来 表示 随机 性 策略 中 的 动作 分 布 : 伯 努 利 
4y4i (Bernoulli Distribution) ， 类 别 分 布 〈Categorical Distribution) 和 对 角 高 斯 分 布 (Diagonal 
























































Gaussian Distribution )。 伯 努 利和 类 别 分 布 可 以 用 于 离散 动作 空间 ， 如 二 值 的 (Binary) 或 多 类 别 






































Hj CMulti-Category). T 


























被 用 于 
它 可 以 用 作 二 值 化 动作 策略 CBinary-Action Policy). 























KJ 












































对 角 高 斯 分 布 可 以 用 于 连续 动作 空间 。 
一 个 以 9 为 参数 的 单 变量 z e {0,1} 的 伯 努 利 分 布 为 P(s;9) = 097(1 一 9)(1-”)。 因 而 它 可 以 
表示 二 值 化 的 动作 ， 可 以 是 单 维 ， 也 可 以 是 多 维 ( 对 一 个 矢量 中 含 多 个 变量 的 情况 应 用 )， 






















































































类 别 型 策略 (Categorical Policy) 使 用 类 别 分 布 作为 它 的 输出 ， 因 而 可 以 用 于 离散 且 有 限 的 














出 在 有 限 动 作 空间 中 每 个 动作 的 概率 ， 比 如 r(als) 





动作 空间 ， 它 将 策略 视 为 一 个 分 类 器 (Classifier), DORA AE (Conditioned on A State) 而 输 


























P|A,—a|S, = s]。 所 有 概率 和 为 1， 因此 ， 









































— 















































当 将 类 别 型 策略 参数 化 时 ， 最 后 输出 层 〈Output Layer) 常用 Softmax 激活 函数 。 这 里 我 们 具体 使 
] PI] 矩阵 表示 有 限 动作 空间 的 情况 ， 来 替代 概率 函数 p(:|:)。 智 能 体 可 以 根据 类 别 分 布 采样 















































选择 一 个 动作 。 实 践 中 ， 这 种 情况 下 的 动作 通常 可 以 编码 为 一 个 独 热 编 码 矢量 (One-Hot Vector) 























ai 二 (0,0,… ,1,… ,0), 这 个 矢量 跟 动作 空间 有 相同 的 维度 ,从 而 a; © p(-|s) 给 出 p(ai|s)， H 
























































O 是 逐个 元 素 的 乘积 (Element-Wise Product) 算 子 , 而 p(-|s) 是 给 定 状态 s 时 的 矩阵 中 的 一 个 矢量 
〈 行 或 列 ， 依 状态 动作 顺序 而 定 )， 而 这 通常 也 是 归 一 化 后 类 别 型 策略 的 输出 层 。 耿 贝尔 -Softmax 
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函数 技巧 (Gumbel-Softmax Trick) 可 以 在 实践 中 参数 化 类 别 型 策略 后 用 来 保持 类 别 分 布 采 样 过 
程 的 可 微 性 。 在 没有 使 用 其 他 技巧 的 情况 下 ， 有 采样 过 程 或 像 arg max 类 操作 的 随机 性 节点 往往 
是 不 可 微 的 (Non-Differentiable) ， 从 而 在 对 参数 化 策略 使 用 基于 梯度 的 优化 〈 在 随后 小 节 中 介 
绍 ) 时 可 能 是 有 问题 的 。 

耿 贝 尔 -Softmax 函数 技巧 (Gumbel-Softmax Trick): 首先 ， 耿 贝尔 -最 大 化 技巧 (Gumbel-Max 
Trick) 允许 我 们 从 类 别 分 布 x 中 采样 

















































































































z = one_hotlarg max(z; + log 7i)] (2.95) 











其 中 “one_hot” 是 一 个 将 标量 转换 成 独 热 编码 矢量 的 操作 。 然 而 ， 如 上 所 述 ，arg max 操作 通常 
是 不 可 微 的 。 因 此 ， 在 耿 贝 尔 -Softmax 函数 技巧 中 ， 一 个 Softmax 操作 被 用 来 对 耿 贝 尔 - 最 大 化 技 
巧 中 的 argmax 进行 连续 性 近似 : 



























































NS exp((log z; + gi)/7) ,Vi = 0,... ,k (2.96) 
do, exp((logm; + g;)/T 


其 中 天 是 欲求 变量 g《〈 强 化 学 习 策略 的 动作 选择 ) 的 维度 ， 而 gi 是 采样 自 耿 贝尔 分 布 (Gumbel 
Distribution) 的 耿 贝 尔 (Gumbel) 变量 。 耿 贝尔 (0,1) 分 布 可 以 用 逆 变 换 〈JInverse Transform) 采 
样 实现 ， 通 过 采样 均匀 分 布 u ~ Uniform(0,1) 并 计算 g = —log(—log(u)) 得 到 。 

对 角 高 斯 策略 (Diagonal Gaussian Policy) 输出 一 个 对 角 高 斯 分 布 的 均值 和 方差 用 于 连续 动 
芷 空间 。 一 个 普通 的 多 变量 高 斯 分 布 包括 一 个 均值 矢量 jw MAAE (Covariance) FERED, 
而 对 角 高 斯 分 布 是 其 特殊 情况 ， 即 协 方差 矩阵 只 有 对 角 元 非 零 ,因此 我 们 可 以 用 一 个 矢量 or 来 表 
示 它 。 当 使 用 对 角 高 斯 分 布 来 表示 概率 性 动作 时 ， 它 移 除 了 不 同 动作 维度 间 的 协 相 关 性 。 一 个 策 
咯 被 参数 化 时 ， 如 下 所 示 的 再 参数 化 〈Reparametrization ) 技巧 (与 Kingma et al. (2014) 提出 的 变 
分 自动 编码 器 中 类 似 ) 可 以 被 用 来 从 均值 和 方差 矢量 表示 的 高 斯 分 布 中 采样 ， 同 时 保持 操作 的 可 
微 性 。 
再 参数 化 技巧 : 从 对 角 高 斯 分 布 中 采样 动作 a ~ Nue,ae)， 该 分 布 的 均值 和 方差 矢量 为 po 
和 oe (参数 化 的 )， 而 这 可 以 通过 从 正 态 分 布 中 采样 一 个 隐藏 矢量 z~ N (0, D) 来 得 到 动作 : 


































































































































































































































































































a4 




















dca fares (2.97) 








其 中 © 是 两 个 相同 形状 矢量 的 逐个 元 素 乘 积 。 

深度 强化 学 习 中 的 常用 策略 如 图 2.19 所 示 ， 便 于 读者 理解 。 

基于 策略 的 优化 〈Policy-Based Optimization) 方法 在 强化 学 习 情 景 下 直接 优化 智能 体 的 策略 
而 不 估计 或 学 习 动 作价 值 函数 。 采 样 得 到 的 奖励 值 通常 用 于 改进 动作 选择 的 优化 过 程 ， 而 优化 过 
程 可 以 使 用 基于 梯度 或 无 梯度 (Gradient-Free) 的 方法 。 其 中 ， 基 于 梯度 的 方法 通常 采用 策略 梯 
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FE (Policy Gradient)， 它 在 某 种 程度 上 代表 了 连续 动作 强化 学 习 最 受 欢 迎 的 一 类 算法 ， 受 益 于 对 


高 维 情况 的 可 扩展 性 。 典 型 的 基于 梯度 优化 方法 包括 REINFORCE 等 。 无 梯度 方法 对 策略 搜索 : 































































































相对 简 














六 的 情况 

















通常 有 更 快 的 学 习 过 和 









































AE X. CCross-Entropy, CE) 方法 等 。 














IT 








回想 我 们 在 强化 学 习 ， 
计 折 扣 奖 励 (Cumulative Discounted Reward)， 可 以 将 其 表 


R(T) = Deo Y Ri 是 有 














WE. RIH 


深度 强化 学 习 中 的 常用 策略 ( 













































































算法 和 CE 方法 的 例子 。 


基于 梯度 的 优化 


基 了 





升 )， 以 改进 策略 ， 而 这 个 





名 2.19 














作 策 略 梯度 (Policy Gradient), 


























et al., 2000) 和 文献 (Silver et al., 2014) 





ETE FB 








介绍 。 











注 : 





确定 性 策略 











呈 ， 无 须 有 复杂 计算 的 求 导 过 程 。 典 型 的 无 梯度 类 方法 包括 





高 斯 分 布 
其 他 : 自 回 妇 策 略 等 


二 值 化 动作 策略 
随机 性 策略 类 别 型 策略 


深度 强化 学 习 中 的 不 同 策略 类 型 


智能 体 的 


R GER 

















J(n) = Ez. |R(1)] 














目标 是 从 期 望 或 估计 的 角度 去 最 大 化 从 一 个 状态 开始 的 累 
示 为 














(2.98) 


HPS Sa) 的 折扣 期 望 奖励 ， 而 7 是 采样 的 轨迹 。 














于 梯度 的 或 无 梯度 的 方法 ， 来 优化 策 

















基于 策略 的 优化 方法 将 根据 以 上 目标 函数 J(r) 通过 基 
和 先 介 绍 基于 梯度 的 方法 ， 并 给 出 一 个 REINFORCE 法 的 例子 ， 随 后 介绍 无 梯度 的 














梯度 的 优化 方法 是 使 用 在 期 望 回报 〈 总 的 奖励 ) 
期 望 回报 是 从 采样 轨迹 中 得 到 的 。 这 里 我 们 把 关于 策略 参数 的 梯度 叫 


























UKRAIN F: 


A0 = aV J (re) 








而 表示 








量 。 然 而 ， 这 里 我 们 





使 用 


























xk, 而 这 种 简 生 











PLAS) ES TU TE SC 











n 




















上 的 梯度 估计 来 进行 梯度 下 降 (或 上 





























(2.99) 





0 表示 策略 参数 , 而 a 是 学 习 率 。 基 于 策略 参数 的 梯度 计算 方法 叫 作 策略 梯度 法 。 文 献 (Sutton 











提出 的 策略 梯度 定理 (Policy Gradient Theorem) 及 其 证 明 





式 (2.99) 中 参数 0 的 表示 方法 实际 上 是 不 合适 的 ， 








根据 本 书 默认 的 格式 ， 它 应 当 是 9 从 


























本 的 0 格式 作为 一 种 可 以 在 使 用 模型 参数 时 替代 的 8 的 方 

















常见 。 一 种 考虑 这 种 写法 合理 性 的 方式 是 : 参数 的 梯度 可 以 对 
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每 个 参数 分 别 得 到 ， 而 每 个 参数 均 可 单独 表示 为 0， 只 要 方程 对 所 有 参数 相同 ， 它 就 可 以 用 0 来 
表示 所 有 参数 。 本 书 的 其 余 章节 将 遵循 以 上 声明 。 


定理 2.2 策略 梯度 定理 









































T 
VoJ (To) = Ec, | >》 Vo(log mo(ArlSt))Q” (St, Ar) (2.100) 
t=0 
— Es, pr Aienol V0 (log ro Ac[S«)) Q7* (Si, A1)] (2.101) 
其 中 第 二 项 需 定义 折扣 状态 分 布 《Discounted State Distribution) p” = fs 3 oY" pols) 
p(s'|s,t,7)ds, m p(s'|s,t, m) 是 在 策略 下 第 t 个 时 间 步 从 s 到 s/ Port (Transition Proba- 


bility), ŽL x: ak (Silver et al., 2014). 













































































策略 梯度 定理 对 随机 性 策略 和 确定 性 策略 都 适用 。 它 起 初 由 Sutton 等 人 (Sutton et al., 2000) 
为 随机 性 策略 而 提出 ， 后 被 Silver 等 人 (Silver et al., 2014) 扩展 到 确定 性 策略 。 对 确定 性 的 情况 ， 
尽管 确定 性 策略 梯度 (Deterministic Policy Gradient, DPG) 定理 (后 续 介 绍 ) 与 上 述 策略 梯度 定 
理 看 起 来 不 同 ， 实 际 上 可 以 证 明确 定性 策略 梯度 只 是 随机 性 策略 梯度 (Stochastic Policy Gradient, 
SPG) 的 一 种 特殊 (极限 ) 情况 。 若 用 一 个 确定 性 策略 uo: S 一 4 和 一 个 方差 参数 o 来 参数 化 
随机 性 策略 mius, WA o = 0 时 随机 性 策略 等 价 于 确定 性 策略 ， 即 mu, o = p. 

(1) 随机 性 策略 梯度 
首先 我 们 对 随机 性 策略 证 明 策 略 梯度 定理 ， 因 而 被 称 为 随机 性 策略 梯度 方法 。 为 了 简便 ， 在 
本 小 节 中 ， 我 们 假设 有 限 MDP 下 的 片段 式 (Episodic) 设 定 ， 每 个 轨迹 长 度 固定 为 全 十 1。 考 虑 
一 个 参数 化 的 随机 性 策略 re(als)， 对 以 po(So) 为 初始 状态 分 布 的 MDP 过程， 有 轨迹 的 概率 为 
p(T|7) = po(So) Tyo PSl Se At)n(Ai|S1)， 因 而 可 以 得 到 基于 参数 化 策略 re 的 轨迹 概率 的 对 
Zi (Logarithm) 为 
























































La 
































































































































T 
log p(|0) = log po(So) + (tox (S15 At) + tog mo( A/S). (2.102) 
t=0 
我 们 也 需要 对 数 -导数 技巧 (Log-Derivative Trick): Vop(7|0) = p(T7|9)Vo log p(7|0) 得 到 轨迹 概率 
对 数 〈Log-Probability〉 的 导数 为 





T 
Vo log p(T|0) = Vo log po(So) + 5 (v. log p(Si41|S;, At) + Vo loss (A0) (2.103) 
t=0 
工 


= 》 Vo log m9(Ar|S1). (2.104) 
t=0 
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其 中 包含 po(So) 和 p(Sii|S;, Ar) 的 项 被 移 除 ， 因 为 它们 不 依赖 于 参数 9， 尽管 是 未 知 的 。 


















































J (re) = "rne [R(7)] = EL 
























































其 中 了 = (So, Ao, Ro,… , Sr, Ar, Rr, S741) B. R(7) = Deg Rie BETA A BEE EMR BML 0 E 
进行 梯度 上 升 来 逐渐 改进 策略 rs 的 表现 。 


回想 之 前 介绍 过 ， 学 习 目 标 是 最 大 化 期 望 累计 奖励 (Expected Cumulative Reward): 














T 
= 5 Eroro [Ri] , (2.105) 
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注意 Ri 只 依赖 Tt» 其 Tt = (So, Ao, Ro, +> , St, At, Re, S141)。 



































VoE,~mo [Ri] = Vo 1 FRap(r;|0)d7. 展开 期 户 (2.106) 
» f B Napiriló des 对 换 梯度 和 积分 (2.107) 
= f Rip(7|0)V o log p(7;|0)d7; 对 数 -导数 技巧 (2.108) 
= ake [Ri Vo log p(7:|4)] 回归 期 望 形 式 (2.109) 
































上 面 第 三 个 等 式 是 根据 之 前 介绍 的 对 数 -导数 技巧 得 到 的 。 


将 上 面 式 子 代入 到 I(r), 


VJ (nro) = me 





现在 我 们 需要 计算 Vologpe(r), K 
































T 
Emi] . 
t=0 





























polTe) 依赖 于 策略 re 和 模型 p(Ri, Sey1|Si, At) WA 














实 值 ， 而 该 模型 对 智能 体 是 不 可 用 的 。 柱 运 的 是 ， 为 了 使 用 策略 梯度 方法 ,我 们 只 需要 log po(7i) 
的 梯度 而 不 是 它 本 身 的 值 ， 而 这 可 以 简单 地 用 m, = Tot BR (2.104) 中 的 了 = Tor 而 得 到 下 式 : 



















































































t 
Vo log p(7|0) = X Vo log o(Av|Sv). (2.110) 
t'=0 
从 而 
T $ 
VoJ (T0) = Ec, |X RiVo 》 log To(Av| Sv) 
t=0 t’=0 
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工 














TNTE 





t'=0 


5 Vo log TE (Avl Sy) 5 Ri T 





这 里 最 后 一 个 等 式 是 加 法 重 排 CRearranging the Summation). 














注意 ,我 们 在 以 上 推导 过 程 中 使 用 

















置换 (都 是 合理 的 )， 如 下 : 


VJ (8) = Vo 








的 累计 奖励 取 期 望 : 


Vol (To) = Vo 




















A [R(7)] = Ve 

















Uus RIT) 





egy J p(r|8)R(r) 


z | Vop(r|0)R(r) 














ino | V o log p(T|0) R(T) 





> VJ (8) = 





ITNT 


T 
5 Vo log To (A: 
t=0 














T 
p3 Vo log To (A: 


4 
AT NT 








t=0 








仔细 的 读者 可 能 注意 到 式 2.119) 的 第 二 个 结果 与 式 (2.111) 的 第 














来 说 ， A 





计 奖 励 的 时 间 范 


围 是 不 同 的 。 第 














来 评估 动作 ， 而 第 二 个 
包括 选择 那个 动作 之 前 的 奖 
到 数学 上 
Ws pe BE ASE ECBE ZH JI 








行 估计 ， 而 这 也 得 
以 在 推导 策 
奖励 (Reward-to-Go)” 








的 读者 可 以 参考 相关 资料 。 这 里 的 两 种 导出 方式 也 可 以 作为 两 个 结果 等 价 性 的 论证 。 


上 述 公式 中 的 V 称 “nabla”， 和 数学 领域 有 着 三 重 意义 的 算 子 〈 梯 度 、 散 度 、 
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使 用 
励 。 
的 证 明 ， 即 





结果 























下 p(7|0)Vo log p(r|8)R(r) 


Se) R(7) 


T 
S) MR, 
t'—0 





了 加 法 和 期 望 之 间 的 置换 ， 以 及 


其 最 终 在 式 (2.106) 中 对 长 度 为 +t 十 1 的 部 分 轨迹 元 进行 积分 。 








整个 轨迹 上 的 累计 奖励 og Re 来 评 






































T 
(2.111) 
t=t’ 
期 望 和 加 法 与 求 导 之 间 的 
T 
= > VeE rane [Fi] (2.112) 
t=0 


然而 ,也 有 其 他 方式 来 对 整个 轨迹 





















































(2.113) 

展开 期 望 (2.114) 
SHOES SERVER (2.115) 
对 数 -导数 技巧 (2.116) 
回归 期 望 形式 (2.117) 
(2.118) 

(2.119) 

个 结果 有 一 些 差别 。 具 体 


一 个 结果 只 使 用 了 动作 hi 之 后 的 累计 未 来 奖励 Diy Ri 








估 该 轨迹 上 的 每 个 动作 Ay 





直觉 上 ， 一 个 动作 不 应 该 | 
这 个 动作 之 前 的 奖励 对 最 
了 些 过 去 的 奖励 值 来 得 到 式 (2.111), 而 这 被 称 为 “将 得 到 


























j 这 个 动作 执行 以 前 的 奖励 值 来 对 其 进 








策略 梯度 。 这 里 我 们 不 给 出 两 利 














~ A 





"AE 














2H 


IN 


有 零 影 响 。 因 此 可 
| 的 
各 梯度 公式 等 价 性 的 严格 证 明 ， 感 兴趣 


望 梯度 只 





















































eG XE 


个 物 到 




















2.7 策略 优化 



































和 旋 度 ) ， 依 据 它 做 操作 的 对 象 而 定 。 而 在 计算 机 领域 ， 这 个 “nabla” 算 子 V 通常 用 作 偏 微分 
(Partial Derivative)， 其 对 紧 跟 的 对 象 中 显 式 〈Explicitty) 包含 的 变量 进行 求 导 ， 而 这 个 变量 写 在 
算 子 脚 标的 位 置 。 由 于 上 式 中 的 R(7) 不 显 式 包含 9， 因此 Ve 不 作用 于 RO) SE r 可 以 隐 式 
(Implicitly) 依赖 于 0 GRH MDP 的 图 模型 )。 我 们 也 注意 到 式 (2.119) 的 期 望 可 以 用 采样 均值 来 
估计 。 如 果 我 们 收集 一 个 轨迹 的 集合 D = {7i}i=1,.…,N， 而 其 中 的 轨迹 是 通过 使 智能 体 以 策略 re 
在 环境 中 做 出 动作 来 得 到 的 ， 那 么 策略 梯度 可 以 用 以 下 方式 估计 : 





































































































































































































T 

- 1 

I= m > > Vo log To (AlS) R(T), (2.120) 
TED t=0 






































EGLP (Expected Grad-Log-Prob) 引 理 在 策略 梯度 优化 中 经 常用 到 ， 所 以 我 们 在 这 里 介绍 它 。 
引 理 2.2 EGLP 引 理 : 假设 pe 是 随机 变量 r 的 一 个 参数 化 的 概率 分 布 ， 那 么 有 














Vs po [V 6 log Po(x)] = 0. (2.121) 











WEBB: 由 于 所 有 概率 分 布 都 是 归 一 化 的 : 







































































| po(x) — 1. (2.122) 

对 上 面 归 一 化 条 件 两 边 取 梯 度 : 
Ve | pox) = Vol = 0. (2.123) 

使 用 对 数 -导数 技巧 得 到 : 
0= Ve J o (2.124) 
= f Vope(x) (2.125) 
= f po(z) Vo log po(z) (2.126) 
7.0 = Ez ps [Vo log po(x)). (2.127) 
从 EGLP 引 理 我 们 可 以 直接 得 出 : 

EA, mo [Vo log ro (A S;)b(,)] = 0. Q.128) 




















其 中 b(S;) 称 为 基准 〈Baseline)， 而 它 是 独立 于 用 于 求 期 望 值 的 未 来 轨迹 的 。 基 准 可 以 是 任何 一 
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个 只 依赖 当前 状态 的 函数 ， 而 不 影响 优化 公式 中 的 总 期 望 值 。 
上 面 公式 中 的 优化 目标 最 终 为 

























































































































































































































































































T 
VoJ(r9) = Ez, | >》 Vo log mo(AiS;) (7) (2.129) 
t=0 
我 们 也 可 以 更 改 整个 轨迹 的 奖励 R(7) 为 在 t 时 间 步 后 将 得 到 的 奖励 Gy: 
T 
Vo J (T0) = Ez, | >》 Vo log ro(AiS:)Gs (2.130) 
t=0 
通过 以 上 EGLP 引 理 ， 期 望 回报 可 以 被 推广 为 
T 
VoJ (To) = Ec, | >》 Vo log ro(At|Se) Pt (2.131) 
t=0 
其 中 D, = Y (R( Sv, av, Sv-41) — (0) 
ITET, De 可 以 变 成 以 下 形式 : 
$, = Q"* (St, At) (2.132) 
或 
B, = A™ (Si, Aj) = Q™ (St, At) — V™ (S) (2.133) 
而 它们 都 可 以 证 明 等 价 于 期 望 内 的 原始 形式 ， 只 是 在 实际 中 有 不 同 的 方差 。 这 些 证 明 需 要 重复 期 
望 规则 (the Law of Iterated Expectations): 对 两 个 随机 变量 (离散 或 连续 ) A EX] = E[E[X|Y]]. 
而 这 个 式 子 很 容易 证 明 。 剩 余 的 证 明 如 下 : 
T 
VoJ (19) = Ec, |, Vo log To(4l SH) R(T) (2.134) 
t=0 
T 
= 》 Erno [Vo log 79(At| 51) R(7)] (2.135) 
t=0 
E 
= ME, oss Enno [Vo log ro (Ail St) R(T) |r] (2.136) 
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7 策略 优化 















































R E,[] = En, IE 


所 以 ， 文 献 ! 


























VoJ(no) = 


于 改变 优化 





换 句 话说 ， 它 等 价 
































‘|74]| E. 7. 


s 
= Drno 





目标 为 .J(ro) = 





























t = (9040 





























TNTE 



































来 蔡 换 原始 形式 Ei~a[R(7)]。 对 于 优化 策略 来 说 ， 实 践 中 常 月 
Error). 
根据 是 否 使 
Based) 两 类 。 对 于 无 模型 强化 学 习 ， 自 
称 策略 梯度 算法 。 而 基于 模型 的 强化 学 习 算 法 一 类 ， 也 有 

















Ti NTO Vo log To (Ay |S:) 














YE Vo log 7:9 (AlS) 


ir ve [V 0 (log 7a(At| St) )Q 


tear [Q"* 





, Si, At) All Qro (Si, A4) = 


(St, Az)] BK J(mo) = 
H A"*(S,, At) 来 估计 TD- 误差 (TD 





JEG 





Bry me R(T) |T:t]] 


rono R(T)|S:, Ai] 


T (St, At)| 














T 
> vodos MAIS) 
t=0 


T 
>》 Vo (log o( Ar S:)) A”? (St, a] 
t=0 












































lal AY c] 4448 (Backpropagation Through Time, BPTT) 来 根据 一 


例子 : REINFORCE 算法 











REINFORCE 是 一 个 使 / 
而 在 REINFORCE 中 ， 它 通常 
a4* Re) 来 估计 。 














Joh (2.131) 的 随机 性 
用 轨迹 上 采样 
更 新 策略 的 梯度 为 

















t=0 t'—t 





的 奖励 值 G, = 


策略 梯度 方法 的 算法 ， 其 ! 


Lrt 


ae [A™e 





如 使 月 








个 片段 内 的 奖励 3 


Egg 























3b» Ry Vo log 7o(At|S¢) 


(2.137) 


(2.138) 


(2.139) 


rono [R(T)| St, Atle 


(2.140) 


(2.141) 


(St, Ai)] 


环境 模型 ,强化 学 习 算 法 可 以 被 分 为 无 模型 (Model-Free) 和 基于 模型 的 (Model- 
单纯 基于 梯度 的 优化 算法 可 以 追溯 至 REINFORCE 算法 , 或 
些 基 于 策略 的 算法 ， 比 


DE d 
策略 。 


Pi Es Q7 (Si, At); 
Ry AMHRA G, = 


i-i 


(2.142) 
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(2) 确定 性 策略 梯度 

以 上 介绍 的 属于 随机 性 策略 梯度 (Stochastic Policy Gradient, SPG) ， 它 用 于 优化 随机 性 策略 
"(als)， 即 用 一 个 基于 当前 状态 的 概率 分 布 来 表示 动作 的 情况 。 与 随机 性 策略 相对 的 是 确定 性 策 
K, HE a = x(s) 是 一 个 确定 性 动作 而 非 概率 分 布 。 我 们 可 以 用 类 似 于 SPG 的 方法 得 到 DPG, 
它 在 数值 上 《作为 一 种 极限 情况 ) 遵循 策略 梯度 定理 ， 尽 管 有 不 同 的 显 式 表示 。 
TE: 在 本 小 节 后 续 部 分 ， 我 们 使 用 uls) 代替 之 前 定义 的 x(s) 来 表示 确定 性 策略 ， 从 而 消除 
它 与 随机 性 策略 x(a|s) 间 的 歧义 。 
对 于 DGP 的 更 严格 和 广泛 的 定义 ， 我 们 参考 由 文献 (Silver et al., 2014) 提出 的 确定 性 策略 梯 
度 定 理 ， 即 式 (2.151)。 在 此 之 前 ， 我 们 将 逐步 介绍 确定 性 策略 梯度 定理 并 证 明 它 ， 先 用 一 种 在 线 
策略 的 方式 而 后 用 离线 策略 的 方式 ， 同 时 我 们 也 将 详细 讨论 DPG 和 SPG 间 的 关系 。 
首先 ， 我 们 定义 确定 性 策略 的 表现 目标 ， 与 随机 性 策略 梯度 求解 过 程 中 的 期 望 折 扣 奖 励 采 用 
同样 的 定义 : 









































































































































































































































































































































J(u) = Esp» A —u(8,) ELT Q.143) 
t=1 
zy ! po(s)p(s'|s, t, u) R(s', u(s")]dsds' (2.144) 
S 121 
= [ onto. utyys (2.145) 
S 





其 中 p(s'|s,t, u) = p(Sr4i)Sz, Ai)p*(Ai159:)， 第 一 个 概率 是 转移 概率 ， 而 第 二 个 是 动作 选择 概率 。 
由 于 它 是 确定 性 2 我 们 有 p” (AlS) = 1， 因 而 p(s'|s,t, u) = p(Sti|Su n(S,)). Ibh, EX 
的 状态 分 布 是 pr(s”) := fs 717" po(s)r(s'|s. t, uds. 

ces ea E [Dia VTR Se, At) $1 = siu] = fs Xici Y (s! |s. t, HR s", u(s)]ds 
在 除 使 用 确定 性 策略 这 一 点 外 遵循 与 随机 性 策略 梯度 中 相同 的 定义 ， 我 们 可 以 得 










































































Co 











Ju) = [ po(s)V*(s)s (2.146) 
= 人 n S uds “po(s)p(s'|s, t, 1) R(s', u(s")]dsds' (2.147) 
S t=1 




















这 与 上 面 直接 用 折扣 奖励 的 形式 得 到 的 表示 式 是 等 价 的 。 这 里 的 关系 也 对 随机 性 策略 梯度 适 
用 ， 只 是 将 确定 性 策略 us) 替换 成 随机 性 策略 m(a[s) 即 可 。 对 于 确定 性 策略 ， 我 们 有 Y%(s) = 
Qx(s,A(s))， 因 为 状态 价值 对 于 随机 性 策略 是 关于 动作 分 布 的 期 望 ， 而 对 于 确定 性 策略 没有 动作 
分 布 而 只 有 单个 动作 值 。 因 此 我 们 也 有 对 于 确定 性 策略 的 如 下 表示 : 
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Ju) = [ po(s)V"(s)as (2.148) 


= ] o toys (2.149) 



































关于 表现 目标 的 不 同形 式 和 几 个 条 件 将 被 用 来 证 明 DPG 定理 。 我 们 在 这 里 列 出 这 些 条 件 如 
下 而 不 给 出 详细 的 推导 过 程 ， 相 关内 容 请 参考 文献 (Silver et al., 2014). 


。C.1 连续 导数 的 存在 性 : p(s'|s, a), Vap(s'|s, a), uols), Vouo(s), R(s, a), VaR(s, a), po(s) 对 
所 有 参数 和 变量 s, a, s' 和 x 连续 。 












































。C.2 BARE: 存在 a,b Al L EG sup, po(s) < b, sup, ss p(s'|s, a) 
< b, supa,s R(s,@) < b,supa,s,s' || Vap(s'|s, a)]| € L, sup, || VaR(s a)]| < Le 





定理 2.3 确定 性 策略 梯度 定理 : 假设 MDP 满足 条 件 C.1， 即 连续 的 Vgno(s), V,Q"(s, a) 和 确定 
性 策略 梯度 的 存在 性 ， 那 么 


Vode) = [ p(s) Vonols) Va (s; lazu ds (2.150) 


= Esp [Vouo(s)VaQ" (s, @)|a=p0(s)] (2.151) 




















WEBB: 确定 性 策略 梯度 定理 的 证 明基 本 遵循 与 文献 (Sutton et al., 2000) 的 标准 随机 性 策略 梯度 定 
里 一 样 的 步骤。 首先 ， 为 了 方便 在 后 续 证 明 中 交换 导数 和 积分 ， 以 及 积分 的 顺序 ， 我 们 需要 使 用 
两 个 引 理 ， 它 们 是 微 积 分 里 的 基本 数学 公式 ， 如 下 : 























































































































引 理 2.3 莱 布 尼 茨 积分 法 则 (Leibniz Integral Rule) : f(z,t) 是 一 个 使 得 f(a,t) 及 其 偏 导 数 
fL, t) Æ (x, t)-F ep BRE t for ERM BRM, End& alx) <t < blr), xo Xx Xa. A 
时 假设 函数 a(x) 和 bz) 都 是 连续 的 且 在 xo Sr <r 上 有 连续 导数 。 那 么 ， 对 于 zo <x, 





de) i : T 
dz Jaca) f(z,t)dt = f(z,b(z)) - 3-b(z) — f(a, a(z)) - 1-a(z) 4 ie a, (er t)dt — (2.152) 


51 2.4 富 比 尼 定 理 (Fubini’s Theorem) : (Rik X de y X o-A IRM A Co-Finite Measure 
Space), Jf EEG X x y 由 积 测度 (Product Measure) Ah (HF X de y 是 oa- 有 限 的 ， 这 个 测 
度 是 唯一 的 )。 富 比 尼 定理 声明 : wREeXKx VY TERK, PMA f X—-PD7M HK a 
Function) HLA 


f E E (2.153) 
XXY 
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那么 


ji f(z, y)dy)dz = iE (f fes natu = f NICE (2.154) 


为 了 满足 以 上 两 个 引 理 ， 我 们 需要 C.1 所 提供 的 充分 条 件 作为 莱 布 尼 菊 积分 法 则 的 要 求 ， 即 
VHe(s) fll VaV” (s) 是 0 和 s 的 连续 函数 。 我 们 也 遵循 状态 空间 S 紧 致 性 (Compactness) 的 假 
设 ， 如 富 比 尼 定 理 所 要 求 ， 即 对 于 任何 9, |V V” (s) |VaQ (s, a) lazno) A || Vouo(s)|| 是 
s AR (Bounded) 函数 ， 而 这 在 C.2 中 提供 。 有 了 以 上 条 件 ， 我 们 可 以 得 到 以 下 推导 : 
















































































VoV"*(s) = VeQ"* (s, uo(s)) 
= Ve(Rs, uo(s)) + [ -vp(s!|s, pio (s) V"* (s) da!) 


= Vene(s)V«R(s,a)|a-uo(s) + v f Yp(s'|s, ua(s)) V”? (s')ds' 
S 





= Von) Vs Ris. oso + | nr Ie ole) V (s) 
+ Voue(s)V op(s'|s, a) V"* (s'))ds' 
= Vepno(s)Va(R(s,a) «f yp(s'|s, a) V”? (s’)ds’)|a=p9(s)) 
S 
+ [spl s!|s,s0(s))VoV"* (sas 
S 


= Vote(s) VaQ"? (s, a)|a—u, (s) «f yp(s'|s, no (s)) VaV"" (s')ds' (2.155) 
S 














在 上 面 的 推导 中 , 羔 布 尼 次 积分 法 则 被 用 于 交换 求 导 和 积分 的 顺序 , 这 要 求 满足 p(s'|s, a), jo(s)， 
V^ (s) 和 它们 的 导数 对 0 的 连续 性 条 件 。 现 在 我 们 用 VeYw (s) 对 以 上 公式 进行 迭代 ， 得 到 : 






































Vo V”? (s) = Vouo(s)V aQ" (s, @)|a=p0(s) 


j J n(s'|s, po (s)) Vous) Va" (8, a)la—yocey ds’ 
S 





+ | sv(s'\s,s0(s)) f aps" ns!) vo^ (sasas 
S S 
= Voko (s)V4Q"* (s, @)|a=p0(s) 


+ f pe 2 8", 1, po(s)) Vene(s )VaQ"* (s, a)la=po(s' yds" 
S 


Y | ¥ p(s ze s', 2, po(s)) Vono(s )V4Q"* (s', 8)|a-us(s') ds 
S 
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E Y osi p(s > s',t, we(s)) Voue(s )VaQ"* (s', a)| a4, (s) ds (2.156) 
S 


t=0 












































中 ， 我 们 使 用 富 比 尼 定 理 来 交换 积分 顺序 ， 而 这 要 求 [|| Vo V "^ (s)| 的 有 界 性 条 件 。 上 述 积分 ， 
包含 一 种 特殊 情况 ,对 s' = s A pls — 5 和 ,0, Me(s)) = 工 而 对 其 他 s^ 为 0。 现 在 我 们 对 修改 过 的 性 
能 目标 即 期 望 价值 函数 进行 求 时 : 




















Vous) = Vo 人 mVeG)ds 
uM 
-人 人 > PO CER a | dude 


= / p"? (s) Veuo(s)VaQ"* (s, a)|a—,, (s) ds (2.157) 
S 




















其 中 我 们 使 用 莱 布 尼 欧 积分 法 则 来 交换 求 导 和 积分 顺序 ， 需 要 满足 pols) 和 V” (s) 及 其 导数 对 
0 连续 的 条 件 ， 同 样 由 富 比 尼 定 理 交 换 积 分 顺序 ， 需 要 满足 被 积 函 数 〈Integrand) 的 有 界 性 条 件 。 
证 毕 。 

离线 策略 确定 性 策略 梯度 

除了 上 面 在 线 策略 版 本 的 确定 性 策略 梯度 (DPG) 推导 ， 我 们 也 可 以 用 离线 策略 的 方式 来 
导出 DPG， 使 用 上 面 的 DPG 定理 和 -折扣 状态 分 布 p^ (s) := fs oia 1 p(s)p (s'|s,t, u)ds- 
离线 策略 确定 性 策略 梯度 用 行为 策略 (Behaviour Policy， 即 使 用 经 验 回 放 池 时 的 先前 策略 ) 的 样 
本 来 估计 当前 策略 ， 而 这 个 策略 可 能 跟 当前 策略 不 同 。 在 离线 策略 的 设 定 下 ， 由 一 个 独特 的 行 
为 策略 8(s) A uols) 所 采集 轨迹 来 对 梯度 进行 估计 ， 相 应 的 状态 分 布 为 pz(s)， 这 不 依赖 于 策 
略 参 数 0。 在 离线 策略 情况 下 ， 人 性 能 目标 被 修改 为 目标 策略 的 价值 函数 在 行为 策略 的 状态 分 布 上 
DN Ja(uo) e p? (s)V^(s)ds = fs ps(s)Q*(s, po(s))ds， 而 原始 的 目标 遵循 式 (2.149), BP 
J(ue) = fs po(s)V*(s)ds。 注 意 ， 这 里 是 我 们 在 导出 离线 策略 确定 性 策略 梯度 中 进行 的 第 一 个 近 
似 ， p J(u) © e 而 我 们 将 在 后 面 有 另外 一 个 近似 。 我 们 可 以 直接 对 修改 过 的 目标 取 微分 
如 下 : 
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VoJa(uo) = LINDE (s, a) n VoQ"^ (s, a))|a=n(s)ds 
N [PON oula (s, a)ds 


= E, ^ [Vono (s)V aQ" (s, a)la=u(5)] (2.158) 




















上 面 式 子 中 的 约 等 于 (Approximately Equivalent) 符号 “2” 表示 了 在 线 策略 DPG 和 离线 策略 DPG 
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的 不 同 。 上 式 中 的 依赖 关系 需要 小 心 处 理 。 因 为 p2(s) 是 独立 于 0 的 ， 关 于 9 的 导数 可 以 进入 积 
分 中 ， 并 且 在 p?(s) EREA. Q (s, ug(a)) 实际 上 以 两 种 方式 依赖 于 9 (其 表达 式 中 有 两 个 
po?: CL) 它 依赖 于 确定 性 策略 pe 基于 当前 状态 s 所 决定 的 动作 a, 而 (2) 对 Q 值 的 在 线 策略 估计 
也 依赖 于 策略 yo 来 在 未 来 状态 下 选择 的 动作 , 如 在 QU^(s, a) = R(s,a)+ J, yp(s‘|s, a)V"* (s')ds' 
所 示 ， 所 以 这 个 求 导 需 要 分 别 进行 。 然 而 ， 第 一 个 式 中 的 第 二 项 Vo Qh? (s, a)| us) 在 近似 中 
由 于 对 其 估计 的 困难 而 被 丢掉 了 ， 这 在 离线 策略 梯度 中 有 类 似 的 相应 操作 (Degris et al., 2012)!2. 
随机 性 策略 梯度 和 确定 性 策略 梯度 的 关系 
如 式 (2.140) 所 示 ， 随 机 性 策略 梯度 与 前 文 策略 梯度 定理 中 公式 有 相同 的 形式 ， 而 式 (2.151) 
的 确定 性 策略 梯度 看 起 来 却 有 不 一 致 的 形式 。 然 而 ， 可 以 证 明 对 于 相当 广泛 的 随机 策略 ，DPG 
是 一 个 SPG 的 特殊 (极限) 情况 。 在 这 种 情况 下 ，DPG 也 在 一 定 条 件 下 满足 策略 梯度 定理 。 为 了 
实现 这 一 点 , 我 们 通过 一 个 确定 性 策略 up : S 一 A 和 一 个 方差 参数 o 来 参数 化 随机 性 策略 Tyg c 
从 而 对 o = 0 有 随机 性 策略 等 价 于 确定 性 策略 Bl m, o = 4。 为 了 定义 SPG 和 DPG 之 间 的 关系 ， 
有 一 个 额外 的 条 件 需要 满足 ， 这 是 一 个 定义 常规 Delta- 近 似 〈Regular Delta-Approximation ) 的 复 
合 条 件 。 
。C.3 常规 Delta- 近 似 : 由 o 参数 化 的 函数 vj 被 称 为 一 个 及 GE A 上 的 常规 Delta- 近 似 , 如 果 满 
足 条 件 :(1) 对 于 a’ e 及 和 适当 平滑 的 了 ,vo 收敛 到 一 个 Delta 分 布 limoyo f4 vs (a^, a) f (a)da = 
f(a’); (2) vold, ) 在 紧 致 而 有 利 普 希 茨 〈Lipschitz) WHA C, CA 上 得 到 支撑 ， 而 在 边 
界 上 消失 (Vanish) 并 且 在 Cy 上 连续 可 微 ; (3) 梯度 Vv (a/,a) 总 是 存在 ; (4) 转移 不 
变性 : 对 任何 a € A a! € Riat+de€A,a’ 6 € A, FA v(a',a) =v(a' +6,a4 4). 
FETE 2.4 确定 性 策略 梯度 作为 随机 性 策略 梯度 的 极限 :考虑 一 个 随机 性 策略 True 使 得 rusc(als) = 
vs(ug(s),a), BP o 是 一 个 控制 方差 的 参数 且 vj (uols), a) 满足 C.3， 又 有 MDP 满足 C.1 和 C.2， 
那么 有 ， 

















































































































































































































































































































































































































lim VeJ (no,o) = VoJ (Uo) (2.159) 


这 表示 DPG 的 梯度 〈 等 号 右边 ) 是 标准 SPG (等 号 左边 ) 的 极限 情况 。 
以 上 关系 的 证 明 超出 了 本 书 的 范畴 , 我 们 在 这 里 不 做 讨论 。 细节 参考 原文 (Silver et al., 2014). 
确定 性 策略 梯度 应 用 和 变 体 
一 种 最 著名 的 DPG 算法 是 深度 确定 性 策略 梯度 (Deep Deterministic Policy Gradient，DDPG )， 
它 是 DPG 的 一 个 深度 学 习 变 体 。DDPG 结合 了 DQN 和 Actor Critic 算法 来 使 用 确定 性 策略 梯度 
并 通过 一 种 深度 学 习 的 方式 更 新 策略 。 行 动 者 (Actor) 和 批判 者 (Critic〉 各 自 有 一 个 目标 网 络 
(Target Network) 来 便于 高 样本 效率 (Sample-Efficient〉 地 学 习 ， 但 是 众所周知 ， 这 个 算法 可 能 


































































































! 关 于 这 个 操作 的 细节 和 相关 论断 可 以 参考 原文 。 
2 论文 SILVER D, LEVER G, HEESS N, et al. 2014. Deterministic policy gradient algorithms[C]. 中 式 (15) 在 近似 操作 后 
的 @ 项 上 丢掉 了 Va, 这 里 我 们 对 其 勘误 。 
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使 用 起 来 有 

















DDPG 算法 的 细节 


从 以 上 可 以 看 到 ， 策 | 





挑战 性 ， 





























和 实现 在 后 
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实际 上 , 它们 使 


E, 28 
KE Ff 











了 两 种 不 同 的 估计 
分 函数 (Score Function) 估计 器 ， 而 DPG 是 路 径 











种 方式 佑 1 








EL 


-可 





于 它 在 实践 中 往往 很 脆弱 而 对 超 参数 敏感 (Duan et al., 2016)。 关 于 
详细 介 


各 梯度 可 以 用 至 少 丙 








+: SPG 和 DPG， 依 赖 于 具体 策略 类 型 。 
| 器 ,用 变 分 推 岂 (Variational Inference, VI) 的 术语 来 说 , SPG 
数 (Pathwise Derivative) 估计 器 。 


再 参数 化 技巧 使 得 来 自 价 值 函数 的 策略 梯度 可 以 用 于 随机 性 策略 ， 这 被 称 为 随机 价值 梯度 








以 表明 贝尔 曼 递 归 


和 1 步 ， 而 SVG(oo) 表示 贝尔 曼 递 归 
型 方法 ， 它 的 动作 价值 
一 个 基于 模型 的 方法 ， 它 使 用 一 个 学 















































































































































(Stochastic Value Gradients, SVG) (Heess et al., 2015)。 在 SVG 算法 中 , 一 个 A 值 通常 用 于 SVGA), 
被 展开 了 多 少 步 。 举 例 来 说 ，SVG(0) 和 SVG(1) 表示 贝尔 曼 递 归 分 别 被 展开 0 

被 沿 着 有 限 范 围 的 整个 片段 轨迹 展开 。SVG(0) 是 一 个 无 模 

是 用 当前 策略 估计 的 ， 因 此 价值 梯度 被 反 向 传播 到 策略 中 ， 而 SVGA) 是 

学 得 的 转移 模型 来 估计 下 一 个 状态 的 值 ， 如 论文 (Heess et al., 


2015) 中 所 述 。 























一 个 非常 简单 








但 有 用 的 











率 密度 p(y|z) =N 








WN 


p(x 


dà 








序 生成 样本 ， 先 采 
追踪 。 实际 上 根据 同样 的 过 程 也 可 以 得 到 从 动作 价值 函数 至 
生 策略 的 梯度 ，SVG 使 用 








那样 通过 
了 领 外 的 期 望 

















值 。 








介 值 函数 来 得 








样 e 再 以 


pin 











Se 


I 随机 i 











柔性 

















都 遵循 这 个 程序 ， 

















从 而 可 以 使 





tf xe A 


JE ELM 








,0 (a)) 写作 函数 y(x) = p(x) + o(z)e e ~ N(0, 1). 
的 方式 得 到 y， 这 使 得 对 随机 性 策略 的 采样 过 程 进行 梯度 
| 策略 间 的 反 向 传播 梯度 。 为 
了 这 个 再 参数 化 技巧 ， 并 
E Actor-Critic (Soft Actor-Critic, SAC) 和 原始 SVG (Heess et al., 2015) 算法 


策略 进行 连续 控制 。 























参数 化 技巧 (Reparameterization Trick) 的 例子 是 将 一 个 条 件 高 斯 概 


因而 我 们 可 以 按 程 











了 像 DPG 
对 随机 噪声 取 





























比如 , 在 SAC 中 ， 随 机 性 策略 被 一 个 均值 和 一 个 方差 ， 以 及 一 个 从 正 态 分 布 “Normal Distri- 














bution) ! 





> 











SAC 中 使 用 的 策略 是 一 个 Tanh 归 
参数 化 技巧 : 























用 如 下 ] 








采样 的 噪声 项 


























7T" = arg max 
T 





一 化 高 斯 


了 参数 化 。SAC 中 的 优化 目 


此 ， 价 值 函数 和 Q 值 函数 间 的 关系 变 为 




















分 








Es | 》 V (R(S:, An Si) + oH (m(-[S:))) 
t=0 








布 ， 这 与 传统 设置 不 同 。SAC : 


ag(s,€) = tanh(ug(s) + o9(s)-€),e ~ N'(0, T) 








bx RL 


(2.160) 


(2.161) 
(2.162) 





的 动作 表示 可 以 使 


(2.103) 
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由 于 SAC 中 策略 的 随机 性 ， 策 略 梯度 可 以 在 最 大 化 期 望 价值 函数 时 使 用 再 参数 化 技巧 得 到 ， 即 ; 








max Ean Q^" (s, a) — alog ro(als)] (2.164) 


= max Eeuw [Q7 (s, a(s, €)) — a log 79(a(s, €)|s)] (2.165) 























因而 ， 梯 度 可 以 经 过 Q 网 络 到 策略 网 络 ， 与 DPG 类 似 ， 即 : 


Vor B >》 (Q™ (Si, a(S,, €)) — a log To (a( Si, €)S;)) (2.166) 
S,cB 











其 使 用 一 个 采样 批 8 来 更 新 策略 ， 而 ao(S,,e) 通过 再 参数 化 技巧 来 从 随机 性 策略 中 采样 。 在 这 种 
情况 下 ， 再 参数 化 技巧 使 得 随机 性 策略 能 够 以 一 种 类 似 于 DPG 的 方式 来 更 新 ， 而 所 得 到 的 SVG 
是 介 于 DPG 和 SPG 之 间 的 方法 。DPG 也 可 以 被 看 作 SVG(O) 的 一 种 确定 性 极限 (Deterministic 
Limit). 


















































无 梯度 优化 


除了 基于 梯度 〈Gradient-Based) 的 优化 方法 来 实现 基于 策略 (Policy-Based) 的 学 习 ， 也 有 
非 基 于 梯度 (Non-Gradient-Based) 方法 ， 也 称 无 梯度 (Gradient-Gree) WII, Eus c SCR 
(Cross-Entropy, CE) 方法 、 协 方差 矩阵 自 适 应 〈Covariance Matrix Adaptation, CMA) (Hansen 
et al., 1996), Jf&ili?: (Hill Climbing), Simplex / Amoeba / Nelder-Mead 算法 (Nelder et al., 1965) 等 。 






































例子 : SOMITE 


除了 对 策略 使 用 基于 梯度 的 优化 , CE 方法 作为 一 种 非 基 于 梯度 的 方法 , 在 强化 学 习 中 也 常用 
于 快速 的 策略 搜索 。 在 CE 方法 中 ,策略 是 迭代 更 新 的 ， 对 参数 化 集 略 re 的 参数 0 的 优化 目标 为 















































0* = arg max S(0) (2.167) 


























其 中 5(9) 是 整体 目标 函数 ,对 于 这 里 的 情况 , 它 可 以 是 折扣 期 望 回 报 (Discounted Expected Return). 

CE 方法 中 的 策略 可 以 被 参数 化 为 一 个 多 变量 线性 独立 高 斯 分 布 (Multi-Variate Linear Inde- 
pendent Gaussian Distribution), 参数 矢量 在 迭代 步 t 时 的 分 布 为 9: ~ N (pr, 07). TER Sn SEAS 
矢量 91,.… On 并 评估 了 它们 的 值 S (01), ,S(On) 后 ， 我 们 对 这 些 值 排序 并 选取 最 好 的 [p «n 
个 样本 , 其 中 0 < p < 工 是 选择 比率 (Selection Ratio )。 所 选取 的 样本 的 指标 记 为 Te {1,2,---,n}, 
分 布 的 均值 可 以 用 以 下 式 子 更 新 : 























































































































Mey =: H (2.168) 
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而 方差 的 更 新 为 


ser (Os 一 pt (Oi — p 
c2 1 := Diet| "n en) (2.169) 









































OUT EE T AEE RRRA. PATI. UCR WT FE ASH CE 对 强化 学 习 问 题 的 适用 
性 严重 局 限于 一 个 现象 ， 即 分 布 会 过 快 集中 到 一 个 点 上 。 所 以 ， 它 在 强化 学 习 的 应 用 中 虽然 速度 
快 ， 但 是 也 有 其 他 限制 ， 因 为 它 经 常 收敛 到 次 优 策略 。 一 个 可 以 预防 较 早 收敛 的 标准 技术 是 引入 
噪声 。 常 用 的 方法 包括 在 迭代 过 程 中 对 高 斯 分 布 添 加 一 个 常数 或 一 个 自 适 应 值 到 标准 差 上 ， 比 如 : 
















































































































































































ier (i — ne" (0 -p 
c2, , = Liesl mi t+) Eod (2.170) 




















如 在 Szita et al. (2006) 的 工作 中 ， 有 Z, = max(5 一 15,0). 














2.74 结合 基于 策略 和 基于 价值 的 方法 


根据 以 上 的 初版 策略 梯度 CVanilla Policy Gradient) 方法 ， 一 些 简 单 的 强化 学 习 任 务 可 以 被 
解决 。 然 而 ， 如 果 我 们 选择 使 用 蒙特 卡 罗 或 TD(4) 估计 ， 那 么 产生 的 更 新 经 常会 有 较 大 的 方差 。 
我 们 可 以 使 用 一 个 如 基于 价值 的 优化 中 的 批判 者 (Critic) 来 估计 动作 价值 函数 。 从 而 ， 如 果 我 们 
使 用 参数 化 的 价值 函数 近似 方法 ， 将 会 有 两 套 参 数 : 行动 者 (Actor) 参数 和 批判 者 参数 。 这 实际 
上 形成 了 一 个 非常 重要 的 算法 结构 ， 叫 作 Actor-Critic 〈AC)， 和 典型 的 算法 包括 Q 值 Actor-Critic、 
深度 确定 性 策略 梯度 CDDPG) 等 。 
回想 之 前 小 节 中 介绍 的 策略 梯度 理论 ， 性 能 目标 J 关于 策略 参数 0 的 导数 为 
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T 
VoJ (19) = Ec, >》 Vologro(Ad5))Q" (St, Av) (2.171) 
t=0 
























































其 中 Q7(9;,A,) 是 真实 动作 价值 函数 ， 而 最 简单 的 估计 QT(S, Ap) 的 方式 是 使 用 采样 得 到 的 
累计 奖励 Gt = Dco T RSie A) TE AC 中 ， 我 们 使 用 一 个 批判 者 来 估计 动作 价值 函数 : 
QY (Si, Aj) © Q7 (Sy, 4)。 因 此 AC 中 策略 的 更 新 规则 为 












































T 
VoJ (T0) = Ec, >》 Vologro(Ad8:)Q" (St, Ar) (2.172) 
t=0 
w 为 价值 函数 拟 合 中 批判 者 的 参数 。 批 判 者 可 以 用 一 个 恰当 的 策略 评估 算法 来 估计 ， 比 如 时 
a24) (Temporal Difference, TD) 学 习 , 像 式 (2.92) 中 对 TDO) 估计 的 Aw = a(Q7 (Si, At; w) — 
Fai Nu w))VwQ" (St, At; w) 
尽管 结构 可 以 帮助 减 小 策略 更 新 中 的 方差 ， 它 也 会 引入 偏差 和 潜在 的 不 稳定 (Poten- 
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tial Instability) 因素 ， 因 为 它 将 真实 的 动作 价值 函数 替换 为 一 个 估计 的 ， 而 这 需要 兼容 函数 近似 
(Compatible Function Approximation) 条 件 来 保证 无 偏差 估计 ， 如 文献 (Sutton et al., 2000) 所 提 
出 的 。 

































































兼容 函数 近似 


兼容 函数 近似 条 件 对 SPG 和 DPG 都 适用 。 我 们 将 对 它们 分 别 展示 。 这 里 的 “兼容 ” 指 近似 
动作 价值 函数 Q” (s, a) 与 相应 策略 之 间 是 兼容 的 。 

对 于 SPG: 有 具体 来 说 ,兼容 函数 近似 提出 了 两 个 条 件 来 保证 使 用 近似 动作 价值 函数 Q@r(s,a) 时 
的 无 偏差 估计 (Unbiased Estimation): (1) Q"(s, a) = Vologro(als)Iw 和 (2) 参 数 岂 被 选择 为 能 够 
最 小 化 均 方 误差 (Mean-Squared Error, MSE) MSE(w) = 正 。or axr ((Q" (s, a)— Q7 (s, a))?] B]. E 
直观 地 ,条 件 (1) 是 说 兼容 函数 拟 合 器 对 随机 策略 的 “特征 ?是 线性 的 ,该 “特征 ?为 Velogre(als)， 
而 条 件 (2) 要 求 参 数 w 是 从 这 些 特征 估计 Q7 (s, a) 这 个 线性 回归 CLinear Regression) 问题 的 解 。 
实际 上 ， 条 件 (2) 经 常 被 放宽 以 支持 策略 评估 算法 ， 这 些 算 法 可 以 用 时 间 差 分 学 习 来 更 高 效 地 
估计 价值 函数 。 
BA OA ER Pa FERRE, 那么 AC 整体 算法 等 价 于 没有 使 用 批判 者 做 近似 ， 如 REIN- 
FORCE 算法 中 那样 。 这 可 以 通过 使 得 条 件 (2) 中 的 MSE 为 0 并 计算 梯度 ， 然 后 将 条 件 〈1) R 
























































































































































































































































VwMSE(w) = E[2(Q"(s, a) — Q^" (s, a)) VQ" (s, a)] 
= E[(Q"(s, a) — Q" (s, a) Vo log vo(a|s)) 





























=> E[Q" (s, a) Vo log ze(a|s)] = E[Q" (s, a)Vo log ze(a|s)] (2.173) 
































对 于 DPG: 兼容 函数 近似 中 的 两 个 条 件 应 按照 确定 性 策略 uols) 做 相应 修改 : (1) VoQ" (s, a) 
la=pe(s) = Vouol(s) Tw 而 〈2) w 最 小 化 均 方 误差 ,MSE(9,w) = E[e(s;0,w)Te (s;9,w)]， 其 中 
e(s;0, w) = VaQ" (s, @) |a=po(s) — VaQ" (8,4) la=po(s) > 同样 可 以 证 明 这 些 条 件 能 够 保证 无 偏差 估 
计 ， 通 过 将 拟 合 过 程 所 做 近似 转化 成 一 个 无 批判 者 的 情况 : 



























































Va MSE(0, w) = 0 (2.174) 
=> E[Veno(s)e(s;0,w)] = 0 (2.175) 
> E[Vouo(s)VaQ” (s, 4) |a=p0(s)] = E[Voue(s)VaQ" (s, a)ļa=u0(8)] (2.176) 






























































CIERRE Esp |] 和 离线 策略 Espel] 的 情况 都 适用 。 
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其 他 方法 
如 果 我 们 在 式 (2.171) 中 用 优势 函数 〈Advantage Function) 替换 动作 价值 函数 Q7(s,a) (由 于 
减 掉 基 准 值 不 影响 梯度 ): 
































A™(s,a) = Q"*(s, a) — V™ (s) (2.177) 














那么 我 们 实际 可 以 得 到 一 个 更 先进 的 算法 叫 作 优势 Actor-Critic (Advantage Actor-Critic, A2C) , 
它 可 以 使 用 TD 误差 来 估计 优势 函数 。 这 对 前 面 提出 的 理论 和 推导 不 产生 影响 ， 但 会 改变 梯度 估 
计 的 方差 。 

近来 ， 人 们 提出 了 无 行动 者 (actor-free) 方法 ， 比 如 QT-Opt 算法 (Kalashnikov et al., 2018) 和 
Q2-Opt 算法 (Bodnar et al., 2019)。 这 些 方法 也 结合 了 基于 策略 和 基于 价值 的 优化 ， 有 具体 是 无 梯度 
的 CE 方法 和 DQN。 它 们 使 用 动作 价值 拟 合 (Action Value Approximation) 来 学 习 Q7°(s,a), Tfi 
不 是 使 用 采样 得 到 的 折扣 回报 作为 高 斯 分 布 中 采样 动作 的 估计 ， 这 被 证 明 对 现实 中 机 器 人 学 习 更 
高 效 和 有 用 ， 尤 其 是 当 有 示范 数据 的 时 候 。 
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强化 学 习 算 法 分 类 















































本 章 将 介绍 强化 学 习 算 法 的 常见 分 类 方式 和 有 具体 类 别 。 图 3.1 总 结 了 一 些 经 典 的 强化 学 习 
算法 ， 并 从 多 个 角度 对 强化 学 习 算 法 进行 分 类 ， 其 中 包括 基于 模型 (Model-Based) 和 无 模型 的 
(Model-Free) 学 习 方 法 ， 基 于 价值 (Value-Based) 和 基于 策略 的 (Policy-Based) 学 习 方法 (或 两 
者 相 结合 的 Actor-Critic 学 习 方法 )， 蒙 特 卡 罗 (Monte Carlo) 和 时 间 差 分 (Temporal-Difference) 


强化 学 习 算法 







































































马尔 可 夫 决策 过 程 















无 模型 的 


基于 模型 的 
(时 间 差分 、 蒙 特 卡 洛 等 ) 


(动态 规划 、 树 搜索 等 ) 


AlphaGo/AlphaZero 


动作 -价值 方法 


梯度 赌博 机 方法 





















DA 
World Model 



































MuZero 
g— d 
| es | | Dueling DQN | | Double DQN I—| T3 | | SAC J [azcia3c 
图 3.1 强化 学 习 算法 分 类 图 。 加 粗 方 框 代 表 不 同 分 类 ， 其 他 方 框 代 表 具 体 算 法 
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3.1 基于 模型 的 方法 和 无 模型 的 方法 








学 习 方 法 ， 在 线 策略 COn-Policy) 和 离线 策略 COff-Policy) 学习 方法 。 大 多 数 强 化 学 习 算 法 都 可 
以 根据 以 上 类 别 进行 划分 ， 希望 在 介绍 具体 的 强化 学 习 算 法 之 前 ， 这 些 分 类 能 帮助 读者 建立 强化 
学 习 知 识 体系 框架 。 其 中 , 第 4、5 和 6 章 分 别 具 体 介绍 了 基于 价值 的 方法 、 基 于 策略 的 方法 ， 以 
























































及 两 者 的 结合 。 


3.1 ”基于 模型 的 方法 和 无 模型 的 万 法 
































我 们 首先 讨论 基于 模型 的 方法 和 无 模型 的 方法 ， 如 图 3.2 所 示 。 什 么 是 “模型 ”? 在 深度 学 习 
中 ， 模 型 是 指 具 有 初始 参数 〈 预 训练 模型 ) 或 已 习 得 参数 〈 训 练 完毕 的 模型 ) 的 特定 函数 ， 例 如 
全 连接 网 络 、 卷 积 网 络 等 。 而 在 强化 学 习 算 法 中 ,“ 模 型 ” 特 指环 境 ， 即 环境 的 动力 学 模型 。 回 






































想 一 下 ， 在 马尔 可 夫 决 策 过 程 (MDP) 中 ， 有 五 个 关键 元 素 : S, A, P, R, yo SMA RAYS 


























状态 空间 和 动作 空间 ; P 表示 状态 转移 函数 ，p(s'|s,a) 给 出 了 智能 体 在 状态 s 下 执行 动作 a, FF 





ER 











转移 到 状态 s! 的 概率 ; 刃 代 表 奖 励 函 数 ，r(s, a) 给 出 了 智能 体 在 状态 s 执行 动作 a 时 环境 返 











>H 


子 ， 用 来 给 不 同时 刻 的 奖励 赋予 权重 。 











奖励 值 ，7 表示 奖励 的 折扣 




















的 








如 果 所 有 这 些 环境 相关 的 元 


























素 都 是 已 知 的 ， 那 么 模型 就 是 已 知 的 。 此 时 可 以 在 环境 模型 上 进行 计算 ， 而 无 须 再 与 真实 环 ] 
方法 。 在 通常 情况 下 ， 智 能 


行 交 互 ， 例 如 第 2 ERNA RARER] (Planning) 











BLUE 















































体 并 不 知道 环境 的 奖励 函数 R 和 状态 转移 函数 p(s'|s,a)， 所 以 需要 





























(Trials and Errors)， 观 察 环境 相关 信息 并 利用 反馈 的 奖励 信号 来 不 断 学 习 。 这 个 不 断 学 习 的 过 程 


























既 对 基于 模型 的 方法 适用 ， 也 对 无 模型 的 方法 适用 。 








模型 


通过 和 环境 交互 ， 不 断 试 错 


























MCTS (AlphaGo/ DA Q-Learning 
AlphaZero) 








Policy Gradient 








E World Model | | DQN | 


| TRPO/PPO | 











图 3.2 ”基于 模型 的 方法 和 无 模型 的 方法 



































在 这 个 不 断 试 错 和 学 习 的 过 程 中 , 可 能 有 某 些 环境 元 素 是 未 知 的 ， 如 奖 

















励 函 数 R 和 状态 转移 


函数 了。 此 时 ， 如 果 智 能 体 尝 试 通过 在 环境 中 不 断 执行 动作 获取 样本 (s, a, s, r) RARER RA P 
的 估计 ， 则 p(s'|s, a) AI 的 值 可 以 通过 监督 学 习 进 行 拟 合 。 习 得 奖励 函数 RR 和 状态 转移 函数 P 
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之 后 ， 所 有 的 环境 元 素 都 已 
为 基于 模型 的 方法 。 另 一 种 称 为 无 模型 的 方法 则 不 尝试 对 
Q-learning 算法 对 状态 -动作 对 (s,a) 的 Q 值 进 行 估计 ， 
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省 利 











用 环境 反馈 更 新 





Gradient) 算法 不 对 
大 化 累积 奖励 。 这 两 种 算法 都 不 关注 环境 模型 ， 
对 环境 建 模 的 方式 称 为 无 模型 的 方法 。 
用 环境 模型 (或 称 为 环境 的 动力 学 模型 
J A 基于 模型 的 方法 可 以 分 为 两 
7 (Learn 
奖励 函数 和 状态 转移 
言 进行 描述 ， 


Mod 





移 函 
不 可 


是 先 通 过 与 环境 交互 学 习 环 境 模 型 ， 然 后 将 模型 应 用 至 
型 例子 包括 World Models 算法 (Ha 
， 智 能 体 首 先 使 ) 


等 
再 使 
然后 
习 得 

















Te 





进行 


智能 体 可 以 直接 利用 3 
2016) ! 


til, MBMF 算法 (Nagabandi et al., 2018) X} 




















知 ， 则 前 文 所 述 的 规划 方法 


Q 值 函数 ， 随 着 Q 值 收 剑 ， 策 略 随 之 逐渐 收敛 达到 最 优 ; 
值 函 数 进行 估计 ， 而 是 将 策略 参数 化 ， 直 接 在 策 



































可 以 直接 用 来 求解 该 
环境 建 模 ， 而 是 直 
通常 


问题 。 这 种 方式 即 称 
接 寻 找 最 优 策略 。 例 
选择 最 大 Q 值 对 应 的 动作 执行 ， 
策略 梯度 (Policy 
略 空间 中 搜索 最 优 策略 ， 最 




































































4)， 例 











通过 
el) 的 方法 ， A 








BESS (Pi) 模型 
` 境 模型 的 : 









































而 是 直接 搜索 全 oe lies 
可 以 看 到 ， 基 于 模型 和 无 模型 的 区 别 在 于 
如 状态 转移 函数 和 奖 











RI Gb 
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FA 
BE 
B 














jah PR BX 
类 : 一 类 是 给 定 〈 环 境 ) 模型 (Given the 
the Model) 的 方法 。 对 于 给 定 模型 的 方法 ， 
函数 。 例 如 ， 在 AlphaGo 算法 (Silver et al., 




















计算 机 语 





， 围 棋 规 则 固定 且 容 易 





忆 此 智能 体 可 以 直接 利用 已 知 的 状态 转 




















数 和 奖励 函数 进行 策 





各 的 评估 和 提升 。 而 对 于 另 一 














类 学 习 模 型 的 方法 ， 由 于 环境 的 复杂 性 或 























知性 ， 我 们 很 难 描述 整个 动力 系统 的 规 得 

















E. JER 





对 智能 体 无 法 直接 获取 模型 ， 可 行 的 蔡 代 方式 


























第 二 类 的 } 


例如 在 World Models 算法 
用 变 分 自 编码 器 (Variational Autoencoder 
























































策略 评估 和 提升 的 过 程 中 。 

















et al., 2018). I2A 算法 (Racaniére et al., 2017) 

















随机 策略 与 环境 交互 收集 数据 (St, At, S11), 
，VAE) (Baldi, 2012) 将 状态 
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利用 数据 (Ze, Ar, Zea) 学 习 潜 向 量 z 的 
的 预测 模型 提升 策略 能 





lim] 




















预测 模型 。 有 了 预测 模型 





4 之 后 ， 智 能 体 便 可 以 通 


























基于 模型 的 方法 的 主要 优点 是 ， 通 过 
更 好 的 规划 。 






































寸 环境 模型 可 以 预测 未 来 的 状态 和 奖励 ， 从 而 
些 典型 的 方法 包括 朴素 规划 方法 、 专 家 迭代 (Sutton et al., 2018) 方法 等 








帮助 智能 体 
. 例 
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环境 
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了 朴素 规划 的 算法 ，AlphaGo 算法 (Silver et al., 2016) 





， 存 在 或 构建 模型 的 假设 过 强 。 现 实 问题 中 


























的 动力 学 模型 可 能 和 
际 应 用 中 ， 学 习 得 
的 策略 的 评 


REA, 
到 的 模型 往往 是 不 准 


















































是 升 其 策略 性 能 。 
型 ， 也 就 不 存在 环境 拟 合 不 准确 


























[至 无 法 显 式 地 表示 出 来 ， 导 致 模型 
确 的 ， 这 给 智能 体 训练 引入 了 估计 误差 ， 
三 和 提升 往往 会 造成 策略 在 真实 环境 中 失效 。 

相 较 之 下 ， 无 模型 的 方法 不 需要 构建 环境 模型 。 
上 本 ] 
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与 基于 模型 的 方法 相 比 ， 无 模型 的 方法 
的 问题 ， 相 对 更 易于 实 ; 








+ 通常 无 法 获 


















































d uc c 
由 于 不 关心 环境 模型 ， 无 须 学 


ee 






























































身 的 问题 。 最 常见 的 问题 是 








Ih 题 是 ， 有 时 在 


真实 环境 中 进行 探索 的 代价 是 极 














高 的 ， 如 巨大 的 时 间 消 














不 可 逆 的 设备 损耗 及 安全 风险 ， 等 所 
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下 ， 让 智能 体 用 无 模型 的 方法 在 现 久 





世界 : 




















第 4、5 和 6 章 中 介 


。 比 如 在 自动 驾 
探索 ， 因 为 任何 交通 




















驶 中 ， 我 们 不 能 在 没有 任何 防护 措施 的 




















事故 的 代价 都 将 是 难以 承 


绍 的 算法 都 是 无 模型 算法 ， 包 括 深 度 Q 网 络 (Deep Q-Network, DQN) 


32 基于 价值 的 方法 和 基于 策略 的 方法 











算法 (Mnih et al., 201$)、 策 略 梯度 (Policy Gradient) 方法 (Sutton et aL, 2000)、 深 度 确 定性 策 
梯度 (Deep Deterministic Policy Gradient, DDPG) 算法 (Lillicrap et al., 2015) 等 。 虽 然 无 模型 方 





法 仍然 是 现在 的 主流 方法 ， 


























但 由 于 其 采样 效率 (Sample Efficiency) 低 的 缺点 很 难 克 服 ， 天 然 具 
































有 高 采样 效率 的 基于 模型 的 方法 发 挥 着 越 来 越 重要 的 作用 详 见 第 7 章 )。 例 如 ， 第 15 章 中 介绍 
的 AlphaGo (Silver et al., 2016)、AlphaZero (Silver et al., 2017, 2018) 算法 ， 以 及 最 新 的 MuZero 算 


























法 (Schrittwieser et al., 2019) 都 属于 基于 模型 的 方法 。 





3.2 ”基于 价值 的 方法 和 基于 策略 的 方法 











回忆 第 2 章 ， 深 度 强 化 学 习 中 下 
两 者 的 结合 产生 了 Actor-Critic 类 算法 和 QT-Opt (Kalashnikov et al., 2018) 等 其 他 算法 ， 它 们 利用 
基于 价值 的 方法 通常 意味 着 对 动作 





价值 函数 的 估计 来 帮助 更 新 策略 。 其 分 类 关系 如 图 3.3 所 示 。 
价值 函数 Q (s, a) 的 优化 。 优 化 后 的 最 优 值 函数 表示 为 Qr (s, a) = max, Q" (s, a) 
过 选取 最 大 值 函数 对 应 的 动作 得 到 六 e argmaxr Q^ Ce" FPR BOER SO 









































的 策略 优化 主要 有 两 类 : 基于 价值 的 方法 和 基 了 














F 策 略 的 方法 。 



















































































时 间 差 分 方法 : T 
TD Learning RIMAN 
价值 人 价值 迭代 
cubi: 广义 策略 迁 代 
策略 搜索 方法 : 
= > Policy Gradient 
BATIK Trust Region 
Evolution 
O 

















E33 BFE 




















的 方法 和 基于 策略 的 方法 。 





策略 








片 人 参考 文献 (Li, 2017) 





基于 价值 的 方法 的 优点 在 于 采样 效率 相对 较 高 ， 值 函数 估计 方差 小 ， 不 易 陷入 














点 是 它 通常 不 能 处 理 连 续 动作 空间 问题 ， 
式 。 此 外 ， 深 度 Q 网 络 等 算法 中 的 e- 贪 心 策略 〈e-greedy) 和 


且 最 终 的 策略 通常 














， 最 优 策略 通 


o 








局 部 最 优 ; WA 


为 确定 性 策略 而 不 是 概率 分 布 的 形 








max 算 子 容易 导致 过 





十 计 的 问题 。 


常见 的 基于 价值 的 算法 包括 Q-learning (Watkins et al., 1992)、 深 度 Q 网 络 (Deep Q-Network, 


DQN) (Mnih et al., 2015) X3 























其 变 体 : (1) 优先 经 验 回 
et al., 2015) 基于 TD 误差 对 数据 进行 加 权 采 样 ， 以 
2016) 改进 了 网 络 结构 ， 将 动作 价值 函数 Q 分 解 为 






































放 (Prioritized Experience Replay, PER ) (Schaul 
提高 学 习 效 率 ; (2) Dueling DQN (Wang et al., 
状态 值 函数 Y_ 和 优势 函数 4 以 提高 函数 近似 


能 力 ; (3) Double DQN (Van Hasselt et al., 2016) 使 用 不 同 的 网 络 参 数 对 动作 进行 选择 和 评估 ， 以 
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解决 过 估计 的 问题 ; 


%; (5) Noisy DQN (Fortunato et al., 2017) 给 
Distributed DQN (Bellemare et al., 2017) 将 状态 -动作 值 
dE T ENG A 7 A ELBOS] RETA 
价值 的 方法 相 比 ， 基 于 策略 的 方法 具有 
常见 的 基于 策略 的 算法 包括 策略 梯度 算法 (Policy Gradient, PG) (Sutton et al., 














it 














维 的 动作 空间 。 














(4) Retrace (Munos et al., 2016) 
网 络 参数 
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各 参数 


AR 











化 简单 、 
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添加 
ii 












































收敛 速度 快 的 优点 ， 
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分 布 


E 了 @ 值 的 计算 方法 ， 减 少 了 估计 的 方 
虹 声 ， 增 加 了 智能 体 的 探索 能 力 ; (6) 
化 为 对 状态 -动作 值 


的 估计 。 











化， 通过 对 策略 途 代 更 新 ， 实 现 累 积 奖 励 最 大 化 。 与 基于 














适用 了 





连续 或 高 











2000)、 信 赖 域 策 略 优化 算法 (Trust Region Policy Optimization, TRPO) (Schulman et al., 2015). 3t 
端 策略 优化 算法 (Proximal Policy Optimization, PPO) (Heess et al., 2017; Schulman et al., 2017) 等 ， 





信赖 域 策 略 优 化 算法 和 近 端 策 
wai (Collapse), (EAE) 

除了 基于 价值 的 方法 和 
法 。Actor-Critic 方法 结合 了 两 利 


H HL 
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IE 























IU EB D 
V 来 提高 采样 效率 (Critic )， 并 利用 
的 动作 空间 。ActorCritic 方法 可 以 看 作 是 基 








略 优 化 算法 在 策略 梯度 算法 的 基础 上 限 
[稳定 。 
于 策略 的 方法 ,更 流行 的 是 两 

















基于 











nu 


作 是 基 











2018) 和 一 系列 改进 : CIO 异步 
法 扩展 到 异步 
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KE 





























于 策略 的 方法 在 减少 相 
了 上 述 两 种 方法 的 优点 ， 但 同时 








tb 








# 本 方差 和 提升 采 相 





bias RIA 








于 价 








行 学 习 ， 打 乱 数 据 之 间 的 相关 性 ， 提 高 了 档 
性 策略 梯度 算法 (Deep Deterministic Policy Gradient, DDPG) (Lillicrap et al., 2015) 沿 


效率 方面 的 改进 。 虽 
华 承 了 相应 的 缺点 。 比 如 ，Critic 存在 过 估计 的 问题 ， 
在 探索 不 足 的 问题 等 。 一 些 常 见 的 Actor-Critic 类 的 算法 包括 Actor-Critic (AC) 算法 (Sutton et al., 
优势 Actor-Critic 算法 (A3C) (Mnih et al., 2016) 将 Actor-Critic 方 
本 收集 速度 和 训练 效率 ; 〈2) 深度 确 


















































出 了 更 新 步 长 ， 以 防止 策略 


者 的 结合 ,这 衍生 出 了 Actor-Critic 方 
基于 价值 的 方法 学 习 Q 值 函数 或 状态 价值 函数 
策略 的 方法 学 习 策 略 函 数 (Actor)， 从 而 适用 于 连续 或 
值 的 方法 在 连续 动作 空间 中 的 扩展 ， 也 可 以 
SR Actor-Critic 方法 吸收 











Actor 存 
































了 深度 





Q 网 络 算法 的 目标 网 络 ， 同 时 Actor 是 一 个 确定 性 策略 ; (3) ZEAE WEIR DDPG 算法 (Twin Delayed 
Deep Deterministic Policy Gradient, TD3) (Fujimoto et al., 2018) 引入 了 截断 的 (Clipped) Double 


Q-Learning 解决 过 估计 问题 ， 同 时 延迟 Actor 更 新 频率 以 优先 提高 Critic 拟 合 准 确 度 ; (4) 柔性 




















Actor-Critic 算法 (Soft Actor-Critic; SAC) (Haarnoja et al., 2018) Æ Q (Hea Beat FS] A 1E D 





化 ， 以 提高 智能 体 探 索 能 力 。 


3.3 


蒙特 卡 罗 方 法 和 时 间 差 分 方法 














蒙特 卡 罗 (Monte Carlo, MC) 方法 和 时 间 差 分 〈Temporal Difference, TD) 方法 的 区 别 已 经 


在 第 2 章 中 讨论 过 , 一 些 算法 如 图 
时 间 差 分 方法 是 动态 规划 (Dynamic Programming, DP) 方法 和 蒙特 卡 罗 方 法 的 一 种 : 
先 , 时 间 差 分 方法 和 动态 规划 方法 都 使 用 自 举 法 (Bootstrapping) 进行 


























3.4 所 示 o ix H 








BART 

















次 总 结 它们 的 特点 以 








A ul 


F 本 章 的 完整 性 。 

















和 蒙特 卡 罗 方 法 都 不 需要 获取 环境 模型 。 这 两 种 方法 最 大 的 不 同 之 处 在 于 如 何 进行 参数 更 新 ， 蒙 
(真实 值 ) 后 才能 更 新 ， 而 时 间 差 分 方法 在 每 一 步 动 作 执行 都 
差异 将 使 时 间 差 分 方法 方法 


特 卡 罗 方 法 必须 等 到 一 条 轨迹 4 








可 以 通过 自 举 法 (估计 值 ) 及 时 更 新 。 这 利 
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Hit, EX, 时间 差分 方法 











间 形 式 。 首 
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34 在 线 策略 方法 和 离线 策略 方法 











特 卡 罗 方 法 方法 具有 更 大 的 方差 。 





时 间 差 分 方法 


Actor-Critic 


蒙特 卡 洛 方法 


Policy Gradient 














Q-Learning 








[ TRPO/PPO | DDPG 











图 34 蒙特 卡 罗 方 法 和 时 间 差 分 方法 











3.4 ”在 线 策 略 方法 和 离线 策略 方法 


在 线 策略 (On-Policy) 方法 和 离线 策略 (Off-Policy) 方法 依据 策略 学 习 的 方式 对 强化 学 习 算 
法 进行 划分 (图 3.5)。 在 线 策略 方法 试图 评估 并 提升 和 环境 交互 生成 数据 的 策略 ， 而 离线 策略 方 
法 评估 和 提升 的 策略 与 生成 数据 的 策略 是 不 同 的 。 这 表明 在 线 策略 方法 要 求 智能 体 与 环境 交互 的 
策略 和 要 提升 的 策略 必须 是 相同 的 。 而 离线 策略 方法 不 需要 遵循 这 个 约束 ， 它 可 以 利用 其 他 智能 
体 与 环境 交互 得 到 的 数据 来 提升 自己 的 策略 。 常 见 的 在 线 策略 方法 是 Sarsa， 它 根据 当前 策略 选 
择 一 个 动作 并 执行 ， 然 后 使 用 环境 反馈 的 数据 更 新 当前 策略 。 因 此 ，Sarsa 与 环境 交互 的 策略 和 
更 新 的 策略 是 同一 个 策略 。 它 的 Q 函数 更 新 公式 如 下 : 
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Q(St, At) — Q(St, At) + oR + YQ(St41, Aca) — Q(S A1]. (3.1) 













Y Y 
[Sarsa | | Policy Gradient [ Actor-Critic | [Dora 


TRPO/PPO A2C/A3C 


图 3.5 在 线 策略 方法 和 离线 策略 方法 
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Q-learning 是 一 种 典型 的 离线 策略 方法 。 它 在 选择 动作 时 采用 max 操作 和 e- 贪 心 策略 ， 使 得 
与 环境 交互 的 策略 和 更 新 的 策略 不 是 同一 个 策略 。 它 的 Q 函数 更 新 公式 如 下 : 


























Q(S:, At) — Q(S:, At) + o| Re + ymax Q(St41, Aca) — Q(Si A]. (3.2) 
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本 章 将 介绍 的 DQN 算法 全 称 为 深度 Q 网 络 算法 ， 是 深度 强化 学 习 算 法 中 最 重要 的 算法 之 
一 。 我 们 将 从 基于 时 间 差 分 学 习 的 Q-Learning 算法 入 手 ， 介 绍 DQN 算法 及 其 变 体 。 在 本 章 的 最 
后 ， 我 们 提供 了 代码 示例 ， 并 对 DQN 及 其 变 体 进行 实验 比较 。 

强化 学 习 最 重要 的 突破 之 一 是 Q-Learning 算法 。 它 是 一 种 离线 策略 (Off-Policy) 的 时 间 差 分 
(Temporal Difference) 算法 ， 此 前 在 第 2 章 中 有 介绍 。 在 使 用 表格 (Tabular) 的 情况 下 或 使 用 线 
性 函数 逼近 Q 函数 时 ，Q-Learning 已 被 证 明 可 以 收银 于 最 优 解 。 然 而 ， 当 使 用 非 线 性 函数 逼近 器 
(如 神经 网 络 ) 来 表示 Q 函数 时 ，Q-Learning 并 不 稳定 ， 甚 至 是 发 散 的 (Tsitsiklis et al., 1996)。 随 
着 深度 神经 网 络 技 术 的 不 断 发 展 ， 深 度 Q 网 络 (Deep Q-Networks, DQN) 算法 (Mnih et al., 2015) 
解决 了 这 一 问题 ， 并 点 燃 了 深度 强化 学 习 的 研究 。 在 本 章 中 ， 我 们 将 先 回顾 Q-Learning 的 背景 。 
之 后 介绍 DON 算法 及 其 变 体 ， 并 给 出 详细 的 理论 和 解释 。 最 后 ， 在 4.8 T. 我 们 将 通过 代码 展示 
算法 在 雅 达 利 游戏 上 的 实现 细节 与 实战 表现 ， 为 读者 提供 快速 上 手 的 实战 学 习 过 程 。 每 种 算法 的 
完整 代码 可 以 在 随 书 提供 的 代码 仓库 中 找到 1。 

无 模型 (Model-Free) 方法 为 解决 基于 MDP 的 决策 问题 提供 了 一 种 通用 的 方法 。 其 中 “ 模 
型 ”是 指 显 式 地 对 MDP 相关 的 转移 概率 分 布 和 回报 函数 建 模 ， 而 时 间 差 分 (Temporal Difference, 
TD) 学 习 就 是 一 类 无 模型 方法 。 在 2.4 节 中 ， 我 们 讨论 过 ， 当 拥有 一 个 完美 的 MDP 模型 时 ， 通 
过 递归 子 问 题 的 最 优 解 ， 就 可 以 得 到 动态 规划 的 最 优 方案 。TD 学 习 也 遵循 了 这 样 一 种 思想 ， 即 
使 对 子 问题 的 估计 并 非 一 直 是 最 优 的 ， 我 们 也 可 以 通过 自 举 (Bootstrapping) 来 估计 子 问 题 的 值 。 



































































































































































































































































































































































































































! 代 码 链 接见 读者 服务 
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子 问题 通过 MDP 中 的 状态 表示 。 在 策略 7 下， 状态 为 s 时 的 value (E CV 值 ) vs (s) 被 定义 
为 从 状态 s 开始 ， 以 策略 m 进行 动作 的 预期 回报 : 









































Un(s) = ErlRe + Yr (Ser1)|St = 5], (4.1) 

















此 处 的 y e [0,1] 是 衰减 率 。TD 学 习 用 自 举 法 分 解 上 述 估计 。 给 定价 值 函数 了 : S> R, 
TD(0) 是 一 个 最 简单 的 版 本 ， 它 只 应 用 一 步 自 举 ， 如 下 所 示 : 























V(St) — V (Si) + o(F + 4V (St41) — V(S:)] (4.2) 











此 处 的 Ry + YV (Siqi) 和 Ri 十 YV (St41) 一 V(Si) 分 别 被 称 为 TD 目标 和 TD 误差 。 

策略 的 评估 值 提 供 了 一 种 对 策略 的 动作 质量 (Quality) 进行 评估 的 方法 。 为 了 进一步 了 解 如 
何 选择 某 一 特定 状态 下 的 动作 ， 我 们 将 通过 Q 值 来 评估 状态 -动作 组 合 的 效果 。Q 值 可 以 这 样 被 
估计 : 




































































dn(S, a) = E [Re F1 + Un (S441) |S¢ = 8, At =a (4.3) 


























有 了 Q 值 对 策略 进行 评估 之 后 ， 我 们 只 需要 找到 一 种 能 提升 Q 值 的 方法 就 能 提升 策略 的 
效果 。 最 简单 的 提升 效果 的 方法 就 是 通过 贪心 的 方法 执行 动作 : m (s) = arg maxa gr(s,a')。 由 
qr'(S,a) = maxa’ qz(5,0') > q«(s, a) 我 们 可 以 知道 ， 贪 心 的 策略 一 定 不 会 得 到 一 个 更 差 的 解法 。 
考虑 到 探索 的 必要 性 ， 我 们 可 以 用 一 种 蔡 代 方案 来 提升 策略 的 效果 。 在 该 方案 中 ， 多 数 情况 下 我 
们 仍然 选择 贪心 动作 ， 但 是 同时 会 以 一 个 小 概率 es， 从 所 有 动作 中 以 相同 概率 随机 选择 一 个 动作 。 
该 方法 被 称 为 e- 贪 心 。 我 们 可 以 这 样 计算 -贪心 策略 中 7 HIQ IE: 










































































































































































qals, T (s)) = (1 — €) max q«(s,a) + al Dale, a). (4.4) 











(ERI, T6424 在 a € 4 上 的 和 为 1。 由 于 最 大 值 不 小 于 加 权 平 均值 ， 所 以 可 以 
































A 
zn 
us 
—, 











qals, T (s)) = (1 — e) max qz (s, a) 5 i EA | a NE qx (s, a) 


1 = 
acA £ acA 


WV 





(1-932 299 Ml, (5,0) + asa) a(n(), — 45 
acA Ee Al gen 
由 此 得 知 ， 通 过 e- 贪 心 策略 m! 进行 动作 产生 的 Q 值 并 不 会 小 于 原始 的 策略 r。 也 就 是 说 ， 
ce- 贪心 方法 能 确保 策略 的 优化 。 接 下 来 ， 我 们 将 在 下 一 节 中 讨论 如 何 使 用 Q 函数 进行 策略 优化 。 
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4.1 Sarsa fe Q-Learning 































































































41 Sarsa 和 Q-Learning 

更 新 Q 函数 的 方式 也 和 TDO 中 更 新 V 函数 的 方式 相似 ， 直 接 在 每 次 发 生 非 终结 Non- 

Terminal) 状态 下 的 状态 转移 之 后 ， 用 此 时 的 状态 Sy 对 Q 函数 进行 更 新 即 可 。 
Q(St, Ai) — Q(St, At) + o Re + YQ(St41, Aca) — Q(St, Ad] (4.6) 
此 处 的 As 和 Arpi 动作 都 是 通过 基于 Q 值 的 e- 贪 心 方法 来 选择 的 。 如 果 S141 是 一 个 终结 状 
态 (Terminal State), 则 Q(S, ,41) 将 被 设置 为 0。 我 们 能 不 断 地 估计 行为 策略 站 产生 的 @， 同 
时 让 7 趋 近 于 基于 Q 的 贪心 策略 。 此 算法 就 是 Sarsa 算法 。 值 得 注意 的 是 ， 策 略 立 在 Sarsa 中 有 
两 个 职责 : 产生 经 验 和 提升 策略 。 通 常 来 说 ， 用 来 产生 行为 的 策略 被 称 为 行为 策略 ， 而 用 来 评估 
和 提升 的 策略 被 称 为 目标 策略 。 当 算法 中 的 行为 策略 和 目标 策略 是 同一 个 策略 时 《例如 Sarsa), 





该 算法 就 是 一 种 在 线 策 略 COn-Policy) 方法 。 
在 线 策略 方法 本 质 上 是 一 种 试 错 的 过 程 
离线 策略 方法 考虑 一 种 反思 的 策 


升 。 




















KEK, 






























































P ARRET. Hume Ask, BE (One-Step) Q-Learning 遵循 如 下 更 新 规则 : 


此 处 的 A, 是 通过 基于 Q 的 -AOT RRE. HER 
与 Sarsa 不 同 。 也 就 是 说 ，Q-Learning 中 的 行为 策略 也 是 e- 贪 心 ， 


策略 。 单 步 Q-Learning 只 考虑 当前 的 状态 转移 ， 而 我 们 可 以 选择 多 步 (Multi-Steps) Q-Learning 


方法 ， 


意 , 2H Q-Learning ! 
考 公式 (4.3)) 的 近似 。 ee te 3 


Q(St, At) — Q(St, At) + o|F + ymax Q(St41, A1) — 
t+1 















































呈 ， 当 前 策略 产生 的 经 验 仅 会 被 直接 用 于 进行 策略 提 
使 得 反复 使 用 过 去 的 经 验 成 为 了 可 能 。Q-Learning 就 是 
Q(St, A)] (4.7) 

上 总 Atti 是 通过 贪心 方 方式 选择 的 ， 此 处 

但 是 目标 策略 是 贪心 (Greedy) 






































在 近似 情况 下 ， 通 过 使 用 多 步 奖励 (Multi-Steps Rewards) X3 
需要 考虑 后 续 奖 励 的 不 匹配 问题 

















继续 对 多 步 Q-Learning 展 





， 以 保持 Q 函数 对 目标 策略 预期 





得 更 加 精准 的 Q 值 。 要 注 
回报 〈 参 








开 讨 论 。 





































































































































































































4.2 ”为 什么 使 用 深度 学 习 : 价值 函数 逼近 
在 使 用 表格 方式 表示 Q 函数 的 时 候 ，Q AT RANA PKA ER. Ht, 每 个 
离散 的 状态 和 动作 都 有 一 个 单独 的 条 目 。 然 而 该 方法 在 处 理 具 有 大 规模 数据 空间 〈 如 原始 像素 输 
AO 的 任务 时 将 十 分 低 效 ， 更 不 用 说 具有 连续 数据 的 控制 任务 了 。 幸 运 的 是 ， 通 过 使 用 函数 逼近 
从 不 同 输入 进行 泛 化 的 技术 已 经 得 到 了 广泛 的 研究 , 我 们 可 以 将 其 应 用 于 基于 价值 (Value-based ) 
的 强化 学 习 。 
接 下 来 ， 我 们 考虑 Q-Learning 中 使 用 参数 0 进行 函数 拟 合 。 函 数 拟 合 器 可 以 是 线性 模型 、 决 
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策 树 或 者 神经 网 络 。 之 后 ， 我 们 通过 (4.7) 式 子 进行 更 新 ， 它 可 以 被 重 写 为 


0, < arg min £(Q 





此 处 的 C 代表 损失 函数 ， 如 均 方 误差 (Mean Squared Error)。 对 于 上 述 的 优化 问题 ， 
量 采 样 构造 出 拟 合 Q 迭代 (Fitted Q Iteration) (Riedmiller, 2005)， 其 过 程 如 算法 4.15 所 示 ， 其 中 
St 是 S; 的 后 继 状态 。 该 算法 的 一 个 在 线 随机 的 变 利 


























Q Iteration) 算法 。 
算法 4.15 WA Q 迭代 








(Si, At; 0), Re + yQ(St41, An; 9)) 


























(4.8) 


可 以 通过 批 





就 是 如 算法 4.16 所 示 的 在 线 Q 迭代 (Online 





for 迭代 数 i= 1,T do 
收集 份 采样 (C95 Ai, Ri, 9)) 24 
fort= 1,K do 





WE Y; Ri 十 ymaxa Q(S,,a; 0) 
设置 0 — arg ming Dy AO Ge Aj; 6’) — Y;)? 


end for 
end for 





算法 4.16 在 线 Q XXX 





for JALAL = 1, T do 





选择 动作 a 与 环境 交互 ， 并 得 到 观察 数据 (s, a,r, s') 














设置 y |r +ymaxy Q(s’,a’;0) 
































end for 


WHO — 0 — a(Q(s, a; 0) — y) So 






































值得 注意 的 是 ， 拟 合 Q 迭代 和 在 线 Q 选 代 都 是 离线 策略 算法 ， 因 此 ， 它 们 可 以 多 次 
去 的 经 验 。 我 们 将 在 下 一 节 对 此 进行 深入 讨论 。 











在 2.4.2 节 中 ， 我 们 通过 贝尔 曼 最 14 














EE 





LIBI SEE 7* 介绍 了 值 迭 代 的 收敛 性 。 我 


























的 运算 符 B, B 函数 近似 为 BV = arg miny’en LE(V', V), 其 中 Q 是 所 有 可 近似 的 1 


Hit 





pan 
um 





门 定 义 一 个 新 
函数 的 集合 。 
















































































稳定 性 。 
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迭代 是 不 稳定 的 ， 甚 至 可 能 发 散 (Tsitsiklis et al., 1997)。 我 们 将 在 下 一 节 讨论 深度 和 





得 注意 的 是 ， 中 的 arg min 可 以 看 作 是 T*Y 到 2 的 映射 。 所 以 函数 近似 的 回 
示 为 BT*. Wi T* 在 无 穷 范式 Coo-norm) FAA, BW L2 范式 下 的 MSE 损 
gj BT* 不 以 任何 形式 收 你 。 因 此， 当 用 神经 网 络 等 非 线 性 函数 逼近 器 来 表示 数值 











洲 算 子 可 以 表 
A PESE. M 
函数 时 ， 数 值 























经 网 络 训练 的 





4.3 DQN 





43  DQN 











在 上 一 节 : 





的 经 验 (Si, At, Re, Sta 

















时 


新 。 回 放 缓存 相 较 于 拟 合 Q 迭代 有 几 个 优势 。 








， 我 们 介绍 了 近似 学 习 状 态 -动作 值 函数 
原始 像素 输入 的 复杂 问题 中 实现 端 到 端 # 
习 来 解决 不 稳定 性 问题 ， 并 在 雅 达 利 游戏 上 取得 了 显著 进 

第 一 个 关键 技术 被 称 为 回放 缓存 (Replay Buffer)。 这 是 一 种 被 称 为 经 验 习 
til] (Lin, 1993; McClelland et al., 1995; O'Neill et al., 2010). ZE&EA I 
a) 存 入 回放 缓存 中 ， 然 后 从 该 缓存 中 均匀 采样 小 批量 样本 
































E. 


的 方法 及 其 收敛 不 稳定 性 。 为 了 在 使 用 
UR. DON 通过 两 个 关键 技术 结合 Q-Learning 和 深度 学 





























E 演 的 生物 学 启发 机 














EE t H, DON 先 将 智能 体 获 得 


















































4 先 ， 








它 可 以 重用 























函数 ， 这 样 可 以 提高 数据 使 用 效率 。 





中 的 样本 将 会 是 连续 采集 的 ， 即 样本 高 度 相关 。 这 样 会 增加 更 新 




















于 训练 的 样本 只 
Ti 





























第 二 个 关键 技 





Learning 的 











来 Ar 
VAR. ST 









































Learning 
在 动 
Q(St41, @) 
训练 目标 ， 就 


— 



































的 片段 平均 分 。 





aA 


游戏 名 称 


E (S, A,) 上 的 更 新 使 得 
由 增加 ， 从 而 使 得 由 Q 网 络 产生 上 
能 避免 过 估计 的 问题 。 
这 两 项 关键 技术 在 5 个 雅 达 利 游戏 的 效果 提升 效果 妇 
超 参 数 搜索 功能 的 训练 。 每 250000 次 训练 ， 会 对 各 个 智能 



























































次 ， 如 果 像 拟 合 Q 迭代 那样 没有 回放 缓存 ， 























目标 ， 进 一 步 提 高 神经 网 络 的 稳定 性 。 此 外 ， 
更 新 ) 或 者 指数 衰减 平均 〈 软 更 新 ) 的 方式 与 主 Q 网 络 同步 。 
标 ， 使 目标 值 的 产生 不 受 最 新 参数 的 影响 ， 从 而 大 大 减少 发 散 和 震荡 
Q 值 增加 ， 此 时 S, 和 Si. 的 相似 忆 





的 训练 目标 值 被 过 估计 。1 











WET (FIFO 2. 
FE 立 的 网 络 ， 

















DER 





所 需 




















目标 网 络 每 C 步 将 通过 
目标 网 络 通 过 使 用 


的 方差 。 最 后 ， 经 验 回放 防止 用 
个 策略 ， 这 样 能 平滑 学 习 过 程 并 减少 参数 的 震荡 或 发 散 。 在 实践 中 ， 为 
E 往 只 将 最 后 N 个 经 验 存 入 回 
术 是 目标 网 络 。 它 作为 一 个 痢 


的 Q 





F Q-Learning 


每 个 时 间 步 的 经 验 来 学 习 Q 











那么 一 个 批 次 


























网 络 来 生成 Q- 














直接 复制 〈 硬 











日 参数 生成 Q- 














的 情况 。 例 如 ， 
E 可 能 会 导致 所 有 动作 a 的 


















































是 如 


















































Fan oe 


[X 4.1 所 示 。 智 能 
本 进行 135000 iti 














使 用 回放 缓存 和 
目标 Q 网 络 





使 用 回放 缓存 ， 
且 不 使 用 目标 Q 
网 络 


分 别 使 用 回放 缓存 和 目标 Q 网 络 的 效果 。 数 据 来 自 文献 (Mni 


不 使 用 回放 缓 
存 ， 使 用 目标 Q 
网 络 


果 











fi 
be 


1H 





标 网 络 产生 


体 进行 了 1e7 次 配备 














评估 ， 


h etal, 








并 且 记 录 最 高 
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不 使 用 回放 缓存 
和 目标 Q 网 络 





Breakout 


316.8 


240.7 


10.2 


3.2 





Enduro 


1006.3 


831.4 


141.9 


29.1 





River Raid 


7446.6 


4102.8 


2867.7 


1453. 


0 





Seaquest 


2894.4 


822.6 


1003.0 


275.8 





Space Invaders 





1088.9 


























826.3 





373.2 


于 将 任意 长 度 的 历史 数据 作为 神经 网 络 的 输入 较为 复杂 ，DQN 转 而 处 理 








302.0 


r1 

















函数 $ 生成 的 
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固定 长 度 表示 的 历史 数据 。 准 确 来 说 ， 少 集合 了 当前 帧 和 前 三 帧 的 数据 ， 这 对 于 跟踪 时 间 相 关 信 
县 〈 如 对 象 的 移动 ) 非常 有 用 。 完 整 的 算法 展示 在 算法 4.17 中 。 其 中 原始 帧 被 调整 为 84 x 84 的 
灰 度 图 像 。 函 数 $ MESE Y ok 4 帧 的 数据 作为 神经 网 络 的 输入 。 此 外 ， 神 经 网 络 的 结构 由 三 个 
卷 积 层 和 两 个 完全 连接 的 层 组 成 ， 每 个 有 效 动作 只 有 一 个 输出 。 我 们 将 在 4.8 节 讨 论 更 多 的 训练 
细节 。 
算法 4.17 DQN 

超 参 数 : 回放 缓存 容量 W， 奖 励 折扣 因子 Y， 用 于 目标 状态 -动作 值 函 数 更 新 的 延迟 步 长 C, 

e-greedy 中 的 €o 

输入 : 空 回 放 缓 存 D， 初 始 化 状态 -动作 值 函 数 Q 的 参数 0。 

使 用 参数 0 二 0 初始 化 目标 状态 -动作 值 函数 Qo 

for 片段 = 0,1,2,--- do 

初始 化 环境 并 获取 观测 数据 Oo 。 









































初始 化 序列 So = (Oo) 并 对 序列 进行 预 处 理 oo = %(5o)。 


for t=0,1,2,--- do 





























EA, 并 获得 











执行 动 
如 果 本 




















通过 概率 e 选择 一 个 随机 动作 Ay, 














存储 状态 转移 数据 (加 Ar, Re, Dt, $141) 到 DD 中。 














MD! 








若 D; =0, WHY; 

















FE (Y; — Q(9i, Ai; 0)? 
每 C 步 对 

















P 上 对 6 执行 梯度 下 
目标 网 络 @ 进行 同步 。 


Ri +y maxu Q(0 a';0), 
降 步 又。 














如 果 片 段 结束 ， 则 跳出 循环 。 


end for 
end for 


biti = P(St41) 6 


随机 采样 小 批量 状态 转移 数据 (Hi, Ai, Ri, Di, $j) 6 
, fW WHY; = Rio 


否则 选择 动作 A, = arg max, Q(6(5;),a; 0). 
观测 数据 On 和 奖励 数据 Reo 
局 结束 ， 则 设置 D, —1, 否则 D, = 0. 

设置 St+1 = (9; At, Oral 并 进行 预 处 理 





4.4 Double DON 


Double DQN 是 对 DON 在 减少 过 拟 合 方 























论 算法 之 前 ， 我 们 先 在 经 


















































































































































R; + y maxa Q(Si41,4) 包含 一 个 最 大 化 算 子 max 的 操作 。 而 Q XX 

或 者 其 他 原因 ， 可 能 带 有 噪声 。 需 注意 的 是 ， 最 大 噪声 的 期 望 值 # 

E[max(ei, ,en)] > (max(E[a],--- ,E[e,]). Alt, F-7 

et al., 1993) 对 此 提供 了 进一步 的 理论 分 析 和 实验 结 
通过 增加 对 网 络 参数 9 的 关注 ， 标 准 DON 的 学 习 目 标 可 以 被 



































al) ik (Van Hasselt et al., 2016)。 在 进一步 讨 
LH] DQN 算法 上 说 明 一 下 过 拟 合 问题 。 我 们 注意 到 Q-Learning 目标 
1 于 环境 、 非 稳 态 、 


不 会 小 于 噪声 的 最 大 期 望 ， 即 


函数 近似 


Q 值 往往 被 过 估计 了 。 文 献 (Thrun 





Ri + Q(Si41, arg max Q(St41,4; 0); Ô), 


124 


E 写 为 如 下 式 子 : 


(4.9) 


4.5 Dueling DON 














在 式 子 中 可 以 注意 到 一 个 问题 : 6 既 用 于 估计 Q 值 ， 又 用 于 对 估计 过 程 中 的 下 一 个 动作 a 进 
行 选择 。 而 Double DQN 的 核心 思想 是 在 这 两 个 阶段 使 用 两 个 不 同 的 网 络 ， 以 去 除 选择 和 评价 
噪声 的 相关 性 。 因 此 ， 需 要 一 个 额外 的 网 络 完成 这 项 工作 ， 而 DQN 结构 中 的 Q 网 络 则 是 一 个 很 
自然 能 想到 的 选择 。 (回顾 一 下 DQN 结构 中 有 Q 网 络 和 目标 网 络 这 两 个 网 络 ， 并 通过 目标 网 络 
进行 评估 来 进一步 提高 稳定 性 .) 因此，Double DQN 中 使 用 的 Q 学习 目标 是 



























































































































































Ry + 7Q(Sr41,argmax Q(S141,4; 0); 0). (4.10) 











在 Wang 55 A (Wang et al., 2016) 的 工作 之 上 ， 我 们 通过 如 下 公式 计算 智能 体 分 数 相 对 人 类 和 
基准 智能 体 分 数 的 提升 百分比 (有 正 有 仙 ): 























SCOreAgent = ScoreBaseline (4 11) 





Inax(ScoreBaseline， ScoreHuman ) Scorerandom 























Double DQN 相 比 于 DQN 的 效果 提升 情况 如 图 4.1 所 示 。 

















400% 














= * 

















图 4.1 Double DON (Van Hasselt et al., 2016) 相 比 于 DON (Mnih et al, 2015) 在 雅 达 利 基准 上 的 效果 提 
升 情况 。 计 算 标准 参考 公式 (4.11)。 所 有 数据 来 自 文 献 Wang etal., 2016) 



































4.5 Dueling DQN 


对 于 某 些 状 态 来 说 ， 不 同 的 动作 与 预期 值 无 关 ， 因 此 我 们 不 需要 学 习 各 个 动作 对 该 状态 的 影 
啊 。 例 如 ， 假 想 我 们 在 山上 看 日 出 ， 美 丽 的 景色 令 人 陶 醇 ， 这 是 一 个 很 高 的 奖励 。 此 时 ， 你 即使 
在 这 里 继续 做 不 同 的 动作 也 不 会 对 Q 值 产 生 影响 。 因 此 ， 将 动作 无 关 的 状态 值 与 Q 值 进行 解 耦 ， 
可 以 获得 更 加 鲁 棒 的 学 习 效果 。 
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$43 深度 Q 网 络 


























Dueling DQN 提出 了 一 种 新 的 网 络 结构 来 实现 这 一 思想 (Wang et al., 2016)。 更 准确 地 说 ，@Q 
值 可 以 被 分 为 状态 值 和 动作 优势 这 两 部 分 














Q"(s,a) = V” (s) + A" (s, a) (4.12) 
% ja, Dueling DQN 通过 如 下 方法 将 这 两 部 分 的 表示 分 开 : 


Q(s, a; 0, 0v, 0a) = V(s;0,0,) + (A(s, a; 9, 0a) — max A(s, a’; 0, 04)) (4.13) 








其 中 0 和 0, 是 两 个 全 连接 层 的 参数 ，0 表示 卷 积 层 的 参数 。 注 意 公式 (4.13) 中 的 max 函数 
确保 了 QQ 值 能 唯一 地 对 应 状态 值 和 动作 优势 。 和 否则， 训练 将 忽略 状态 值 项 ， 并 只 会 使 优势 函数 收 
ME) Q 值 。 此 外 ， 文 献 (Wang et al., 2016) 还 提出 使 用 取 平 均 代 蔡 取 最 大 值 的 方法 ， 以 获得 更 好 
的 稳定 性 : 


























Q(s,a;0,0,,0,) = V(s;0,0,) + (A(s, a; 0, 0a) -而 4X4 5, a; 0, 0,)) (4.14) 








其 中 ， 优 势 函数 只 需要 向 平均 优势 方向 靠近 ， 而 不 必 追 求 最 大 优势 。 
训练 Dueling 结构 和 训练 标准 DQN 一 样 ， 它 只 需要 更 多 的 网 络 层 。 实 验 表明 ，Dueling 结构 
在 许多 价值 相似 的 动作 中 ， 能 获得 更 好 的 策略 评估 效果 。Dueling DON 相 比 于 DQN 的 效果 提升 
效果 如 图 4.2 所 示 。 
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图 42 Dueling DON (Wang et al, 2016) 相 比 于 DON (Mnih et al, 2015) 在 雅 达 利 基准 上 的 效果 提升 ， 
计算 标准 参考 公式 (4.11)。 所 有 数据 来 自 文献 (Wang et al., 2016) 
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4.6 优先 经 验 回 放 





4.6 ”优先 经 验 回放 


标准 DQN 中 还 剩 下 的 一 个 可 改进 的 地 方 就 是 ， 使 用 更 好 经 验 回放 采样 策略 。 优 先 经 验 回放 
(Prioritized Experience Replay, PER) 是 一 种 将 经 验 进行 优先 排序 的 技术 。 通 过 该 技术 可 以 使 重要 
的 状态 转移 经 验 被 更 加 频繁 地 回放 (Schaul et al., 2015). PER 的 核心 思想 是 通过 TD 误差 6 来 考虑 
不 同 状态 转移 数据 的 重要 性 。TD 误差 5 是 一 个 令 人 惊喜 的 衡量 标准 。 该 方法 之 所 以 能 有 效 ， 是 
ET RSET eee Hee Ee ERS Ane Viera Ree 
富 信息 量 的 经 验 更 多 的 回放 机 会 ， 有 助 于 使 得 整个 学 习 进 度 更 为 快速 和 高 效 。 
当然 ， 直 接 使 用 TD 误差 做 优先 排序 是 最 直接 能 想到 的 方法 。 然 而 这 种 方法 有 一 些 问 题 。 
先 ， 扫 描 整 个 回放 缓存 空间 非常 低 效 。 其 次 ， 这 种 方法 对 近似 误差 和 随机 回报 的 噪声 十 分 敏感 。 
最 后 ， 这 种 贪心 的 方法 会 使 误差 收敛 缓慢 ， 可 能 导致 刚 开 始 训练 时 有 着 高 误差 的 状态 转移 被 频繁 
地 回放 。 为 了 克服 这 些 问题 ， 文 献 (Schaul et al., 2015) 提出 了 使 用 如 下 方法 计算 状态 转移 i 的 采 
样 概率 : 

















































































































































































































TH 












































a 
1 
DR 


RB. pi 指 状态 转移 i 的 优先 级 ， 它 是 一 个 正 数 ， 即 p; > 0. o 是 一 个 指数 超 参数 ，a = 0 对 
应 均匀 采样 情况 ， 而 有 表示 对 采样 的 状态 转移 进行 枚 举 。z 有 两 种 变 体 。 第 一 种 是 按 比例 优先 : 
pi = |o +e rh ô; i d 的 TD 误差 ， 而。 是 一 个 用 于 数值 稳定 的 小 正 数 。 第 二 种 变 体 
是 基于 顺序 的 优先 : Pi = nuns RUP rank(i) 是 状态 转移 i 基于 |5i| 的 等 级 评定 。 
回想 起 在 回放 缓存 中 ， 正 是 因为 随机 采样 而 有 助 于 消除 样本 之 间 的 相关 性 的 。 然而 在 使 用 优 
先 采 样 时 ， 又 放弃 了 纯 随 机 采样 。 因 此 ,减少 高 优先 级 状态 转移 数据 的 训练 权重 也 有 一 定 的 道理 。 
PER 使 用 了 重要 性 采样 〈Importance-Sampling) 权重 来 修正 状态 转移 i 的 偏差 。 





P(i) = (4.15) 






































































































































mi 















































= (NP(i))? (4.16) 









































rh, N 指 回放 缓存 的 容量 大 小 ， 而 P 是 按照 公式 (4.15) 定义 的 概率 。8 是 训练 过 程 中 将 会 
退火 (Anneal) 233] 1 的 超 参数 ， 这 么 设置 是 由 于 随 着 训练 增加 ， 更 新 会 趋 近 于 无 偏 。 此 权重 通常 
被 折叠 进 损失 函数 来 构造 加 权 学 习 。 

为 了 更 有 效 地 实现 上 述 方法 ， 我 们 将 使 用 一 个 分 段 线性 函数 逼近 采样 概率 的 累积 密度 函数 ， 
函数 具有 段 。 更 准确 地 说 ， 优 先 级 存储 在 一 个 称 为 线段 树 的 高 效 查 询 数据 结构 中 。 在 运行 
日 
4. 





























































































































， 首 先 对 线段 范围 进行 采样 ， 然 后 在 该 线段 范围 内 的 样本 进行 均匀 采样 。 对 DON 的 改进 如 
3 所 示 。 























该 
期 
图 

















2 指 模拟 退火 法 中 的 退火 ， 一 种 简单 的 实现 是 线性 退火 ， 例 如 ， 若 设置 初始 值 0.6， 终 止 值 1.0， 最 大 迭代 步 数 为 100， 
WAO<t < 100 4H 8 = 0.6 + t(1.0 — 0.6)/99 
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第 4 章 深度 Q 网 络 








200% 


o% 

















图 43 使 用 基于 等 级 优先 排序 的 优先 经 验 回 放 算 法 (Schaul et al, 2015) 相 比 于 DON (Mnih et al, 
2015) 在 雅 达 利 基准 上 的 效果 提升 ， 计 算 标准 参考 公式 (4.11)。 所 有 数据 来 自 文 献 (Wang 
et al., 2016) 


47 ”其 他 改进 内 容 : 多 步 学 习 、 噪 声 网 络 和 值 分 布 强化 学 习 


Rainbow 在 包含 Double Q-Learning、Dueling 结构 和 PER 之 外 ， 还 包含 了 另外 3 个 DQN 的 
扩展 ， 并 在 雅 达 利 游戏 上 取得 了 显著 的 成 果 (Hessel et al., 2018)。 在 本 节 中 ， 我 们 将 对 此 展开 讨 
论 ， 并 进一步 讨论 它们 的 延伸 内 容 。 

T T eee) Male Step Leaman)» fe Rn P SH el ie eee 
以 通过 适当 调整 ” 值 来 加 快 学 习 速 度 (Sutton et al., 2018)。 然 而 ， 在 离线 策略 学 习 过 程 中 ， 目 标 策 
略 和 行为 策略 在 多 个 步骤 中 的 行为 选择 可 能 并 不 匹配 。 我 们 可 以 在 文献 (Hernandez-Garcia et al., 
2019) 中 找到 一 个 系统 性 的 研究 方法 来 纠正 此 类 错 配 问题 。Rainbow 直接 使 用 了 来 自给 定 状态 S, 
的 截断 的 nn 步 回 报 RO (Castro et al., 2018; Hessel et al., 2018)， 其 中 R? 由 以 下 公式 定义 。 































































































































































































n—1 


RY 2 YR (4.17) 
k=0 


fea, Q-Learning 多 步 学 习 变 体 的 目标 通过 下 式 定义 。 
RP ys max Q(Si+r,4) (4.18) 
第 二 个 扩展 是 噪声 网 络 (Fortunato et aL, 2017)。 它 是 另 一 种 e 贪心 的 探索 算法 ， 对 于 像 《 蒙 


特 祖玛 的 复仇 》 这 样 需要 大 量 探索 的 游戏 十 分 有 效 。 我 们 使 用 一 个 额外 的 噪声 流 将 噪声 加 入 线性 
Jey =(Wa+b)#. 
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4.7 


容 : 多 步 学 习 、 品 声 网 络 和 值 分 布 强化 学 习 





y= (Wa + b) + ((Wasisy © Ew) ag Dnoisy © €p) (4.19) 




















其 中 » © 表示 元 素 间 的 乘 EH, Whoisy 和 Bnoisy 都 是 可 训练 的 参数 ， 而 Ew 和 €b 是 将 退火 到 0 的 随机 
的 标量 。 实 验 表 明 ， 噪 声 网 络 相 比 于 许多 基线 算法 ， 使 得 众多 雅 达 利 游戏 的 得 分 有 了 大 幅 提 升 。 






































最 后 一 个 扩展 是 值 分 布 强化 学 习 (Bellemare et al., 2017)。 该 方法 为 值 估计 提供 了 一 个 新 的 视 











去 只 考虑 2 的 期 望 的 做 法 : 


图 4.4 展示 了 T7 的 一 种 连续 分 布 的 情况 。 





























角 。 文 献 (Bellemare et al., 2017) 提出 了 分 布 式 贝尔 曼 算 子 7x 用 于 估计 回报 2 的 分 布 ， 以 改进 过 


T'Z=R+ PZ. (4.20) 





WB 3 
- 








1.124 一 PZ 









— R+ PZ 
































图 44 ”一 种 分 布 式 贝 尔 曼 算 子 在 连续 分 布 上 的 情况 。 它 提供 了 在 策略 + 下， 下 个 状态 的 回报 分 





布 。 它 将 先 被 折扣 因子 Y 折 损 ， 然 后 被 当前 时 间 步 中 的 奖励 移动 
































Rainbow 中 使 用 的 值 分 布 DON 变 体 被 称 为 离散 DQN (Bellemare et al., 2017)， 它 通过 一 个 离 

















散 分 布 来 对 状态 -动作 值 分 布 进行 建 模 ， 该 分 布 由 
数 化 而 来 。 该 向 量 表示 为 Zi = Vmin + (i — 1)Az, Hy 














WAN 个 元 素 〈 也 被 称 为 原子 ) 的 向 量 z2 

















H [Vain; Vmax] 是 状态 -动作 值 分 布 的 范 FE] , 











并 且 Az = Vow Vn, AEST, N 值 通常 设置 为 51， 因 此 ， 有 了 时 该 算法 也 被 称 为 CS1。C51 


的 参数 模型 9 输出 每 个 原子 概率 pi 









































s,a) = e949) [5 ^. e 组 成 分 布 Zo。 其 中 值得 注意 的 是 ， 


离散 化 的 近似 会 导致 贝尔 曼 更 新 772 与 参数 化 的 Zo 脱节 。 而 C51 通过 将 目标 分 布 T^ Zo 投影 

















到 Zo 上 来 解决 这 个 问题 。 更 加 准确 





Q-Learning 的 投影 目标 PT” Z;(S,, A.) 的 














地 说 ， 若 给 定 一 个 转移 数据 (S, At, Re, S41)， 则 使 用 Double 























由 以 下 公式 算出 : 
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Vimax 
| + yzl — zila 
AS Jo 





N 
XO pj (St, arg max 27 p(Si41, a; 6); 4) [1 


j= 


(4.21) 


























其 中 , E 将 其 参数 限制 在 [a,b] 范围 内 。 由 于 TD 误差 无 法 度量 值 分 布 之 间 的 差异 , 因此 C51 
提出 使 用 如 下 的 Kullbeck-Leibler 散 度 作为 训练 损失 : 


















































Dy (@T* Zoe(St, At)|| Zo (St, At))- (4.22) 




















另外 ， 用 于 经 验 回放 的 优先 级 也 被 KL 散 度 所 代替 。 对 于 Dueling 结构 ， 输 出 分 布 也 将 分 为 
价值 数据 流 和 优势 数据 流 ， 并 且 总 分 布 估计 如 下 所 示 : 




















| exp(Vi(s) + Ai(s,a) — Ai(s, a)) 
Pils 4) = SS oxp(Vi (0) + Aj(s, a) — A (s, a)) on 











其 中 





Aj(s,a) HI d Eu Ailsa!) 定义 。 

通过 C51 实现 的 值 分 布 强化 学 习 的 主要 缺点 是 , 它 只 能 在 一 个 固定 的 离散 集 上 估计 值 。 文 献 
(Dabney et al., 2018b) 提出 了 分 位 数 回归 DQN (Quantile Regression DQN，QR-DQN)， 通 过 分 位 
数 回归 估计 完整 分 布 的 分 位 数 来 解决 这 个 问题 。 在 介绍 QR-DQN 之 前 ， 我 们 先 来 看 看 这 个 分 位 
数 回 归 (Quantile Regression ) 。 回 想 一 下 ， 对 绝对 损失 函数 进行 经 验 风 险 最 小 化 ， 能 使 预测 符合 
EL (50% 分 位 数 )。 有 具体 来 说 ， 给 定 随机 变量 x 及 其 标签 y， 对 于 估计 函数 f. 经 验 平均 绝对 误 
FEN Lime = Ell f(x) — 加。 接着 用 如 下 的 偏 微分 : 






























































































































































P(f(x) > y)U (x) — y) + P(f (x) < y) — f()) 


= P(f(z) > y) - P(fG) < y) =0, (4.24) 
































我 们 能 得 到 P(r) = 0.5， 其 中 下 是 了 的 原 函 数 。 通 常 来 说 ， 对 于 分 位 数 7， 其 分 位 数 损失 害 
义 为 Lauantile (7) = Elp,(f(x) — v) 其 中 


TQ, tra > 0 
pr(a) = (4.25) 
(7 一 1)a， 其 他 









































与 之 类 似 ， 通 过 Som, PUNKS P(e) = 1 一 +7， 即 f(z) 是 随机 变量 y 的 7 分 位 数值 。 
UA KUL, QR-DQN 考虑 将 N 个 均匀 的 分 位 数 gq; = x 作为 值 分 布 。 对 于 一 个 QR-DQN 模 
型 9 : S RYA, EREMI, Q 值 的 状态 s 和 动作 a 是 N 个 估计 的 平均 值 ，Q(s,a) = 
Xx dlbi(s,a)。 在 训练 过 程 中 ， 基 于 Q 值 的 贪心 策略 在 下 个 状态 提供 a* = arg maxw Q(s', a), 
并 且 根 据 公式 (4.20)， 分 布 式 贝尔 曼 目 标 为 70 — r t 0;(s',a*)« CA (Dabney et al., 2018b) 中 
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的 引 理 2 指出 下 式 的 和 可 以 最 小 化 近似 值 分 布 与 真实 值 之 间 的 1-Wasserstein 距离 : 




















N 
YE sles. (T6; — 9i(s, a))]. (4.26) 





ll 
m 


RE A= i -ae 

图 4.5 展示 了 DQN, C51 和 QR-DQN 的 对 比 。 接 下 来 在 值 分 布 强化 学 习 上 ， 其 参数 化 分 布 
的 灵活 性 和 重 棒 性 上 还 有 更 多 的 工作 要 做 。 读 者 对 这 方面 感 兴趣 的 话 可 以 从 文献 (Dabney et al., 
2018a; Mavrin et al., 2019; Yang et al., 2019) 中 找到 相关 资源 。 
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图 45 对 比 s 和 动作 a FÉ3 DON, C51 和 QR-DQN。 其 中 箭头 指向 的 是 估计 值 。QR-DQN 中 分 位 
数 的 数量 指定 为 4。DQN 的 结构 只 输出 实际 Q 值 的 近似 值 。 对 于 值 分 布 强化 学 习 ，5C51 估 
计 了 多 个 Q@ 值 ， 而 QR-DQN HET Q 值 的 分 位 数 



































48  DQN 代码 实例 


KIP, RITKE DQN 及 其 变 体 算 法 讨论 更 多 训练 细节 。 首 先 演示 雅 达 利 环 境 的 设置 过 
程 ， 以 及 如 何 实现 一 些 十 分 有 用 的 装饰 器 (Wrapper) 。 高 效 地 使 用 装饰 器 能 使 训练 更 加 简单 和 




































































Gym 环境 相关 


OpenAI Gym 是 一 个 用 于 开发 和 对 比 强 化 学 习 算 法 的 开源 工具 包 。 它 包含 了 如 图 4.6 显示 的 
一 系列 环境 。 它 可 以 直接 从 PyPI 安装 , 默认 安装 包 不 带 有 雅 达 利 组 件 , 需要 使 用 雅 达 利 扩展 安装 : 
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pip install gym[atari] 

















也 可 以 直接 从 源 安装 。 














git clone https://github.com/openai/gym. git 
cd gym 
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pip install -e. 














&|46 OpenAl Gym 的 一 些 环 境 








可 以 通过 以 下 代码 建立 环境 实例 env: 





import gym 
env = gym.make(env id) 




















其 中 env id 是 环境 名 称 的 字符 串 。 所 有 可 用 的 env id 可 以 在 网 址 (链接 见 读者 服务 ) 上 
查 到 。 
env 实例 中 有 以 下 重要 的 方法 : 

1. env.reset() 重启 环境 并 返回 初始 的 观测 数据 。 

2. env.render(mode) 根据 所 给 的 mode 模式 呈现 环境 图 像 。 默 认为 human fest, ES 
现 当 前 显示 画面 或 者 终端 窗口 ， 并 不 返回 任何 内 容 。 你 可 以 指定 rgb_array 模式 来 使 
env.render 函数 返回 numpy.ndarray 对 象 ， 这 些 数据 可 用 于 生成 视频 。 

3. env.step(action) 在 环境 中 执行 动作 action， 并 运行 一 个 时 间 步 。 之 后 返回 (obser- 
vation, reward, done, info) 的 数据 元 组 ， 其 中 observation 为 当前 环境 的 观测 数据 ， 
reward 是 状态 转移 的 奖励 ，done 指出 当前 片段 是 否 结束 ，info 则 包含 一 些 辅助 信息 。 

4. env.seed(seed) 手动 设置 随机 种 子 。 该 函数 在 复 现 效果 时 非常 有 用 。 

这 里 展示 了 一 个 经 典 游戏 Breakout ( 打 砖 块 ) 的 例子 。 我 们 将 先 运 行 一 个 BreakoutNoFrame- 
skip-v4 环境 的 实例 直到 本 片段 结束 。 游 戏 过 程 的 一 个 样 帧 图 像 如 图 4.7 所 示 。 
























































































































































import gym 
env = gym.make(’ BreakoutNoFrameskip-v4’) 
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o = env.reset() 
while True: 
env.render() 
# take a random action 
a = env.action space.sample() 
O, r, done, _ = env.step(a) 
if done: 
break 


env.close(O # close and clean up 





















































图 47 Breakout 游戏 的 一 个 样 帧 图 像 。 在 屏幕 上 方 有 几 行 需要 被 破坏 的 砖 块 。 智 能 体 可 以 控制 屏 
幕 下 方 的 挡 板 ， 并 控制 角度 弹射 小 球 到 想 要 的 位 置 来 撞 毁 砖 块 。 该 游戏 的 观测 数据 是 形 
状 为 (210, 160,3) 的 RGB 屏幕 图 像 










































































需要 注意 的 是 ， 游 戏 id 中 的 NoFrameskip 意味 着 没有 跳 帧 和 动作 重复 ， 而 v4 意思 是 当前 
为 第 4 个 版 本 ， 也 是 本 书写 稿 时 的 最 新 版 本 。 我 们 将 在 接 下 来 的 例子 中 使 用 该 环境 。 

OpenAI Gym 的 另 一 个 十 分 有 用 的 特性 是 环境 装饰 器 。 它 可 以 对 环境 对 象 进行 装饰 ， 使 训练 
代码 更 加 简洁 。 如 下 代码 展示 了 一 个 用 于 限制 每 个 回合 片段 最 大 长 度 的 时 间 限 制 装饰 器 ， 这 也 是 
雅 达 利 游戏 的 一 个 默认 装饰 器 。 
































































































































class TimeLimit(gym.Wrapper) : 
def | init. (self, env, max episode steps-None): 
super(TimeLimit, self). init . (env) 
self. max episode steps - max episode steps 


self. elapsed steps = 0 
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def step(self, ac): 
o, r, done, info = self.env.step(ac) 
self._elapsed_steps += 1 
if self._elapsed_steps >= self._max_episode_steps: 
done = True 
info[’TimeLimit.truncated’] = True 


return o, r, done, info 


def reset(self, **kwargs): 
self._elapsed_steps = 0 


return self.env.reset(**kwargs) 























为 了 更 加 高 效 地 训练 ，gym.vector .AsyncVectorEnv 提供 了 一 个 用 来 并 行 运行 n 个 环境 的 
矢量 化 装饰 器 的 实现 。 所 有 的 接口 将 统一 收 到 并 返回 n 个 变量 。 此 外 ， 还 可 以 实现 一 个 带 有 绥 存 
的 矢量 化 装饰 器 ， 其 接口 也 接受 和 返回 n 个 变量 ， 但 会 在 后 台 保 持 m > n 个 线程 。 这 样 将 更 为 
高 效 地 运行 某 些 状态 转移 耗 时 较 长 的 环境 。 

Gym 提供 一 系列 雅 达 利 2600 游戏 的 标准 接口 。 这 些 游戏 可 以 以 游戏 内 存 数据 或 者 屏幕 图 像 
数据 作为 输入 ， 使 用 街机 学 习 环 境 (Bellemare et al., 2013) 运行 。 在 这 2600 款 雅 达 利 游戏 中 ， 有 
些 游戏 最 多 包含 18 个 不 同 的 按键 组 合 : 

1. 移动 按键 : 空 动 作 、 上 移 、 右 移 、 左 移 、 下 移 、 右 上 键 组 合 、 左 上 键 组 合 、 右 下 键 组 合 、 左 
下 键 组 合 。 
2. 攻击 按键 : 开火 、 上 移 开 火 组 合 、 右 移 开 火 组 合 、 左 移 开 火 组 合 、 下 移 开 火 组 合 、 右 上 开火 
组 合 、 左 上 开火 组 合 、 右 下 开火 组 合 、 左 下 开火 组 合 。 

此 处 的 空 动 作 表示 什么 都 不 做 。 然 后 开火 键 可 能 被 作为 开始 游戏 的 按键 。 为 了 方便 起 见 ， 我 
们 后 续 将 以 按键 名 称 称呼 其 对 应 的 动作 。 
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DQN 














DQN 还 有 三 个 额外 的 训练 技巧 。 首 先 ， 依 次 使 用 如 下 的 装饰 器 可 以 让 训练 更 加 稳定 高 效 。 

1. NoopResetEnv 在 重 置 游 戏 时 ， 会 随机 地 进行 几 步 空 动 作 ， 以 确保 初始 化 的 状态 更 为 随机 。 
默认 的 最 大 空 动作 数量 为 30。 这 个 装饰 器 将 有 助 于 智能 体 收集 更 多 的 初始 状态 ， 提 供 更 为 
鲁 棒 的 学 习 。 

2. MaxAndSkipEnv 重复 每 个 动作 4 次， 以 提供 更 为 高 效 的 学 习 。 为 了 进一步 对 观测 数据 降 噪 ， 
返回 的 图 像 帧 是 在 最 近 2 帧 上 对 像素 进行 最 大 池 化 的 结 

3. Monitor 记录 原始 奖励 数据 。 我 们 可 以 在 这 个 装饰 器 中 实现 一 些 有 用 的 函数 ， 比 如 速度 跟 
踪 器 。 
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p 





. EpisodicLifeEnv 使 得 本 条 命 结 束 的 时 候 ， 相 当 于 本 片段 结束 。 这 样 不 用 等 到 玩家 所 有 命 


都 消耗 完 才 能 结束 本 片段 ， 对 价值 估计 很 有 帮助 (Roderick et al., 2017). 


Nn 


M Oc 




















. FireResetEnv 在 环境 重 置 的 时 候 触发 开火 动作 。 很 多 游戏 需要 这 个 开火 动作 来 开始 游戏 。 
这 是 快速 开始 游戏 的 先 验 知识 。 

. WarpFrame 将 观测 数据 转换 为 84 x 84 的 灰 度 图 像 。 

. ClipRewardEnv 将 奖励 通过 符号 进行 装饰 ， 只 根据 奖励 数据 的 符号 输出 —1. 0. 1 三 种 奖励 
















































































值 。 这 样 防止 任何 一 个 单独 的 小 批量 更 新 而 大 幅 改变 参数 ， 可 以 进一步 提高 稳定 性 。 








Oo 





. FrameStack HES x 



































后 4 i. 我们 回忆 一 下 ，DQN 为 了 捕捉 运动 信息 , HE SU BU 


























3 帧 来 用 函数 $ 对 观测 数据 进行 预 处 理 。FrameStack 和 WarpFrame KIL Y o 的 功能 。 需 要 
注意 的 是 ， 我 们 可 以 通过 只 在 观测 值 之 间 存 储 一 次 公共 帧 来 优化 内 存 使 用 ， 这 也 称 为 延 到 


帧 技术 CLazy-Frame Trick). 
其 次 ， 为 避免 梯度 爆炸 ，DQN (DeepMind, 2015; Mnih et al., 2015) 使 用 了 对 平方 误差 进行 了 裁 



















































































和 前， 这 等 同 于 将 均 方 差 蔡 换 成 了 6 = 1 情况 下 的 Huber 损失 (Huber, 1992). Huber 损失 如 下 所 示 : 














Lsa) =? 2 (4.27) 
ibi 2 (Ia 55) th 








最 终 ， 回 放 缓存 采样 了 大 批 有 放 回 的 抽样 。 





些 热 启动 步骤。 





























hy 


能 够 有 个 稳定 的 开始 之 前 ， 最 后 还 需要 完成 一 















































注意 到 上 述 所 说 的 全 部 三 个 技巧 都 用 于 本 节 中 所 有 的 实验 。 现 在 我 们 将 展示 如 何 建立 一 个 能 
Ut Breakout 游戏 的 智能 体 。 首 先 ， 为 了 实验 的 可 复 现 性 ， 我 们 将 手动 设置 相关 库 的 随机 种 子 。 





















































random.seed(seed) 


np.random.seed(seed) 


tf.random.set seed(seed) 











接着 ， 我 们 通过 tf.keras.Model 创建 一 个 Q 网 络 : 














class QFunc(tf.keras.Model): 


def | init | (self, name): 


super(QFunc, self). init . (name-name) 


self.conv1 = tf.keras.layers.Conv2D( 
32, kernel size-(8, 8), strides-(4, 4), 


padding-'valid', activation=’relu’) 


self.conv2 - tf.keras.layers.Conv2D( 
64, kernel size-(4, 4), strides-(2, 2), 
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padding-'valid', activation-'relu') 

self.conv3 = tf.keras.layers.Conv2D( 
64, kernel_size=(3, 3), strides=(1, 1), 
padding-'valid', activation-'relu') 

self.flat - tf.keras.layers.Flatten() 

self.fcl = tf.keras.layers.Dense(512, activation=’relu’) 


self.fc2 = tf.keras.layers.Dense(action dim, activation=’ linear’) 


def call(self, pixels, **kwargs): 
# scale observation 
pixels = tf.divide(tf.cast(pixels, tf.float32), tf.constant(255.0)) 
# extract features by convolutional layers 
feature = self.flat(self.conv3(self.conv2(self.convi(pixels)))) 
# calculate q-value 
qvalue = self.fc2(self.fcl(feature)) 


return qvalue 











DON 对 象 的 定义 由 Q 网 络 、 目 标 Q 网 络 、 训 练 时 间 步 数目 和 优化 器 、 同 步 Q 网 络 、 目 标 Q 
网 络 这 些 属性 组 成 ， 代 码 如 下 所 示 。 


























class DQN(object): 
def __init__(self): 
self.qnet = QFunc(’q’) 
self.targetqnet = QFunc('targetq') 
sync(self.qnet, self.targetqnet) 
self.niter = 0 


self.optimizer = tf.optimizers.Adam(lr, epsilon-1e-5, clipnorm=clipnorm) 





申明 一 个 内 部 方法 ， 以 装饰 Q 网 络 ， 之 后 再 给 DQN 对 象 添加 一 个 get action 方法 来 执行 
e- 贪 心 的 行动 。 








Qtf. function 
def _qvalues_func(self, obv): 


return self.qnet(obv) 


def get_action(self, obv): 
eps = epsilon(self.niter) 


if random.random() < eps: 
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return int(random.random() * action dim) 


else: 
obv = np.expand dims(obv, 0).astype(’ float32’) 


return self. qvalues func(obv).numpy().argmax(1) [0] 

















EHD 10% 训练 时 间 步 中 , 将 e 线 性 地 从 1.0 退火 到 0.01 的 
其 变 体 提供 了 3 个 通用 接口 ， 即 train. | train func. 





其 中 , 这 里 的 epsilon 函数 是 一 个 禾 
函数 。 为 了 更 好 地 训练 ， 我 们 为 DQN 及 了 


_tderror_func. 





















































def train(self, b_o, b_a, b_r, b_o_, b_d): 
self._train_func(b_o, b_a, b_r, b_o_, b_d) 





self.niter += 1 


if self.niter 
sync(self.qnet, self.targetqnet) 


@tf. function 
def _train_func(self, b_o, b_a, b_r, b_o_, b_d): 


with tf.GradientTape() as tape: 
self._tderror_func(b_o, b_a, b_r, b_o_, b_d) 








td_errors = 
loss = tf.reduce mean(huber loss(td errors)) 


grad = tape.gradient(loss, self.gnet.trainable weights) 
self.optimizer.apply. gradients(zip(grad, self.gnet.trainable weights)) 


return td errors 


@tf. function 
def _tderror_func(self, b_o, b_a, b_r, b_o_, b_d): 
b_q_ = (1 - b_d) * tf£.reduce_max(self.targetqnet(b_o_), 1) 


b_q = tf.reduce_sum(self.qnet(b_o) * tf.one_hot(b_a, action_dim), 1) 





return b_q - (b_r + reward_gamma * b_q_) 








bs Q 网 络 与 Q 

















] 了 train func 并 每 target_q_update_freq 个 时 间 步 将 























其 中 train if} 


网 络 进行 同步 。 
最 终 ， 我 们 构建 主要 训练 步骤: 


be 
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dqn 


= DQNO 


buffer = ReplayBuffer(buffer. size) 


0 = 


env.reset() 


nepisode = 0 

















t = time.timeQ 
for i in range(1, number time steps + 1): 
a = dqn.get_action(o) 
# execute action and feed to replay buffer 
# note that ‘_‘ tail in var name means next 
o_, r, done, info = env.step(a) 
buffer.add(o, a, r, o_, done) 
if i >= warm_start and i 
transitions = buffer.sample(batch_size) 
dqn.train(*transitions) 
if done: 
o = env.reset() 
else: 
0-0. 
# episode in info is real (unwrapped) message 
if info.get('episode'): 
nepisode += 1 
reward, length = info['episode']['r'], info['episode']['1'] 
print( 
'Time steps so far: {}, episode so far: {}, ' 
'episode reward: {:.4f}, episode length: {}’ 
.format(i, nepisode, reward, length) 
) 
我 们 在 3 个 随机 种 子 上 运行 了 Breakout 游戏 107 个 时 间 步 (4 x 107 帧 )。 为 了 更 好 地 可 视 
化 ， 我 们 将 训练 时 的 片段 奖励 进行 平滑 处 理 。 之 后 通过 如 下 代码 绘制 均值 和 标准 差 ， 输 出 效果 如 















































图 4.8 所 示 的 红色 区 域 。 
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DON 代码 实例 
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图 48 DON 及 其 变 体 在 Breakout 游戏 中 的 效果 ( 见 彩 插 ) 





























from matplotlib import pyplot as plt 


plt.plot(xs, mean, color=color) 


plt.fill_between(xs, mean - std, mean + std, color=color, alpha=.4) 





Double DQN 





Double DQN 可 以 通过 更 新 Double Q 的 估计 来 简 


























使 用 如 下 Double Q 估计 的 代码 进行 蔡 换 即 可 。 



































单 地 实现 。 在 智能 体 的 _tderror_func : 

















# double Q estimation 


b_a_ = tf£.one_hot(tf.argmax(qnet(b_o_), 1), out_ 


dim) 


b_q_ = (1 - b_d) * tf.reduce_sum(targetqnet(b_o_) * b_a_, 1) 











我 们 也 在 Breakout 游戏 上 ， 使 用 3 个 随机 种 子 运 行 了 107 NTA. der 





上 的 绿色 区 域 。 





Dueling DON 

















Dueling 架构 只 对 Q 网 络 进 行 了 修改 ， 它 可 以 通 


过 如 下 方式 实现 : 











图 4.8 





class QFunc(tf.keras.Model): 
def __init__(self, name): 


super(QFunc, self). init . (name-name) 
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深度 Q 网 络 





self.conv1 = tf.keras.layers.Conv2D( 
32, kernel_size=(8, 8), strides=(4, 4), 
padding-'valid', activation-'relu') 
self.conv2 - tf.keras.layers.Conv2D( 
64, kernel size-(4, 4), strides-(2, 2), 
padding-'valid', activation-'relu') 
self.conv3 = tf.keras.layers.Conv2D( 
64, kernel_size=(3, 3), strides=(1, 1), 
padding-'valid', activation=’relu’) 
self.flat = tf.keras.layers.Flatten() 
self.fclq = tf.keras.layers.Dense(512, activation-'relu') 
self.fc2q - tf.keras.layers.Dense(action dim, activation-'linear') 
self.fclv = tf.keras.layers.Dense(512, activation=’relu’) 


self.fc2v = tf.keras.layers.Dense(1, activation=’ linear’) 


def call(self, pixels, **kwargs): 
# scale observation 
pixels = tf.divide(tf.cast(pixels, tf.float32), tf.constant(255.0)) 
# extract features by convolutional layers 
feature - self.flat(self.conv3(self.conv2(self.convi(pixels)))) 
# calculate q-value 
qvalue = self.fc2q(self.fciq(feature)) 
svalue = self.fc2v(self.fclv(feature)) 


return svalue + qvalue - tf.reduce mean(qvalue, 1, keepdims-True) 











我 们 同样 在 Breakout 游戏 上 ， 使 用 3 个 随机 种 子 运 行 了 107 个 时 间 步 。 在 图 4.8 上 的 青色 区 域 是 
该 方法 的 输出 效果 。 



































经 验 优先 回放 


PER 相 较 于 标准 的 DON 有 三 个 变化 。 首 先 ， 回 放 缓 存 维持 了 2 个 线段 树 进行 取 小 和 求 和 操 
作 ， 来 高 效 地 计算 最 小 优先 级 和 优先 级 之 和 。 更 具体 地 说 ，_it_sum 属性 是 具备 两 个 接口 的 求 和 
操作 线段 树 对 象 ，sum 用 于 获得 指定 区 间 内 的 元 素 之 和 ， 而 find prefixsum idx 用 于 查找 更 高 
的 索引 i， 以 使 最 小 的 i 个 元 素 比 输入 值 要 小 。 

其 次 ， 为 了 代 蔡 原本 的 均匀 采样 ， 考 虑 比例 信息 的 采样 策略 如 下 所 示 ; 
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48 DQN 代码 实例 








res - [] 

p_total = self. it sum.sum(80, len(self. storage) - 1) 

every range len - p total / batch. size 

for i in range(batch size): 
mass = random.random() * every range len + i * every range len 
idx - self. it sum.find prefixsum idx(mass) 
res.append(idx) 


return res 

















最 后 ， 不 同 于 普通 的 
算 加 权 Huber 损失 ， 而 索引 则 用 于 更 新 优先 级 。 采 样 步骤 将 被 修改 为 


H 












































WEAF, PER 必须 返回 采样 经 验 的 索引 和 标准 化 的 权重 。 权 习 
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I Tit 











*transitions, idxs = buffer.sample(batch_size) 
priorities = dqn.train(*transitions) 
priorities = np.clip(np.abs(priorities), 1e-6, None) 


buffer.update_priorities(idxs, priorities) 





_train_func 可 修改 为 





@tf. function 
def _train_func(self, b o, ba, b_r, b_o_, b_d, b w): 
with tf.GradientTape() as tape: 





td errors = self. tderror func(b o, ba, br,bo , b. d) 





loss - tf.reduce mean(huber loss(td errors) * b w) 


grad = tape.gradient(loss, self.gnet.trainable weights) 


self.optimizer.apply. gradients(zip(grad, self.gnet.trainable weights)) 


return td errors 


























我 们 还 是 在 Breakout 游戏 上 ， 使 用 3 个 随机 种 子 运 行 了 107 个 时 间 步 。 图 4.8 上 的 洋红 色 区 























域 是 该 方法 的 输出 效果 。 


深度 Q 分 布 网 络 


























值 分 布 强化 学 习 对 Q 值 进行 估计 。 在 本 节 中 , 我 们 将 通过 演示 如 何 实现 其 中 的 C51 技术 , 来 






































实现 一 种 值 分 布 强化 学 习 方 法 。 在 Breakout 游戏 中 , 奖励 都 是 正 数 。 因 此 , 我 介 
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et al., 2017) 中 值 的 范围 [一 10, 10] 换 成 [-1,19], RP -1 是 为 了 允许 一 些 近 似 误差 。 实 现 C51 








] 将 文献 (Bellemare 




















141 


n" 


$43 深度 Q 网 络 






































先 要 做 的 是 让 Q 网 络 给 每 个 动作 输出 51 个 估计 值 ， 这 点 可 以 通过 在 最 后 的 全 连接 层 增加 更 多 的 
输出 单元 来 实现 。 接 着 ， 为 了 替代 TD 误差 ， 需要 使 用 目标 Q 分 布 和 估计 分 布 之 间 的 KL 散 度 作 
为 误差 : 


















































@tf. function 
def _kl_divergence_func(self, b_o, b_a, b_r, b_o_, b_d): 
b_r = tf.tile( 
tf.reshape(b_r, [-1, 1]), 
tf.constant([1, atom_num]) 





) # batch size * atom num 

b. d = tf.tile( 
tf.reshape(b d, [-1, 1]), 
tf.constant([1, atom num]) 


z = br + (1 - bd) * reward gamma * vrange £ shift value distribution 
z = tf.clip by value(z, min value, max value) # clip the shifted distribution 
b = (z - min value) / deltaz 
index help = tf.expand dims(tf.tile( 
tf.reshape(tf.range(batch size), [batch size, 1]), 
tf.constant([1, atom num]) 
), -1) 


b_u = tf.cast(tf.math.ceil(b), tf.int32) # upper 

b. uid = tf.concat([index help, tf.expand dims(b u, -1)], 2) # indexes 
b 1-7 tf.cast(tf.math.floor(b), tf.int32) 

b lid = tf.concat([index help, tf.expand dims(b 1l, -1)], 2) # indexes 


b. dist. = self.targetqnet(b o ) # whole distribution 
b_q_ = tf.reduce sum(b dist * vrange broadcast, axis=2) 
b_a_ = tf.cast(tf.argmax(b q., 1), tf.int32) 
b_adist_ = tf.gather nd( £ distribution of b a. 
b. dist, 
tf.concat([tf.reshape(tf.range(batch size), [-1, 1]), 
tf.reshape(b a ., [-1, 1])], axis-1) 
) 
b_adist = tf.gather nd( £ distribution of b. a 
self.qnet(b 0o), 
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tf.concat([tf.reshape(tf.range(batch size), [-1, 1]), 
tf.reshape(b a, [-1, 1])], axis-1) 
) + le-8 


b 1-7 tf.cast(b 1l, tf.float32) 
mu = b_adist_ * (b - b 1) * tf.math.log(tf.gather nd(b adist, b. uid)) 
bu = tf.cast(b u, tf.float32) 
ml = b adist. * (b u- b) * tf.math.log(tf.gather nd(b adist, b lid)) 


kl. divergence = tf.negative(tf.reduce sum(mu + ml, axis-1)) 


return kl divergence 
































当然 我 们 在 Breakout 游戏 上 ， 使 用 3 个 随机 种 子 运 行 了 107 个 时 间 步 。 图 4.8 上 的 蓝 色 区 域 
是 该 方法 的 输出 效果 。 
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策略 梯度 














策略 梯度 方法 (Policy Gradient Methods) 是 一 类 直接 针对 期 望 回 报 Expected Return) 通过 
梯度 下 降 (Gradient Descent) 进行 策略 优化 的 增强 学 习 方 法 。 这 一 类 方法 避免 了 其 他 传统 增强 学 
习 方 法 所 面临 的 一 些 困 难 ， 比 如 ， 没 有 一 个 准确 的 价值 函数 ， 或 者 由 于 连续 的 状态 和 动作 空间 ， 
以 及 状态 信息 的 不 确定 性 而 导致 的 难 解 性 〈Intractability)。 在 这 一 章 中 ， 我 们 会 学 习 一 系列 策略 
梯度 方法 。 从 最 基本 的 REINFORCE 开始 ， 我 们 会 逐步 介绍 Actor-Critic 方法 及 其 分 布 式 计算 的 
版 本 、 信 赖 域 策 略 优化 〈Trust Region Policy Optimization) 及 其 近似 算法 ， 等 等 。 在 本 章 最 后 一 
节 ， 我 们 附 上 了 本 章 涉 及 的 所 有 方法 所 对 应 的 伪 代 码 ， 以 及 一 个 具体 的 实现 例子 。 
































































































































5.1 简介 








这 一 章 主要 介绍 策略 梯度 方法 。 和 上 一 章 介绍 的 学 习 Q 值 函 数 的 深度 Q-Learning 方法 不 同 ， 
策略 梯度 方法 直接 学 习 参 数 化 的 策略 re。 这 样 做 的 一 个 好 处 是 不 需要 在 动作 空间 中 求解 价值 最 
大 化 的 优化 问题 ， 从 而 比较 适合 解决 具有 高 维 或 者 连续 动作 空间 的 问题 。 策 略 梯度 方法 的 另 一 个 
好 处 是 可 以 很 自然 地 对 随机 策略 进行 建 模 1。 最 后 ， 策 略 梯度 方法 利用 了 梯度 的 信息 来 引导 优化 
的 过 程 。 一 般 来 讲 ， 这 样 的 方法 有 更 好 的 收敛 性 保证 2。 

顾名思义 ， 策 略 梯度 方法 通过 梯度 上 升 的 方法 直接 在 神经 网 络 的 参数 上 优化 智能 体 的 策略 。 
在 这 一 章 中 ， 我 们 会 在 5.2 节 中 推导 出 策略 梯度 的 初始 版 本 算法 。 这 个 算法 一 般 会 有 估计 方差 过 
高 的 问题 。 我 们 在 5.3 节 会 看 到 Actor-Critic 算法 可 以 有 效 地 减轻 这 个 问题 。 有趣 的 是 , Actor-Critic 
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1 在 价值 学 习 的 设 定 下 ， 智 能 体 需 要 额外 构造 它 的 探索 策略 ， 比 如 e- 贪 心 ， 以 对 随机 性 策略 进行 建 模 。 
2 但 一 般 也 仅 限 于 局 部 收敛 性 ,而 不 是 全 局 收敛 性 。 近 期 的 一 些 研究 在 策略 梯度 的 全 局 收敛 性 上 有 一 些 进展 , 但 本 章 不 
讨论 这 一 方面 的 工作 。 
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52 REINFORCE: 初版 策略 梯度 





和 GAN 的 设计 非常 相像 。 我 们 会 在 5.4 节 比 较 它们 的 相似 之 处 。 在 5.5 节 、5.6 节 中 ， 我 们 会 接 
着 介绍 ActorCritic 的 分 布 式 版 本 。 最 后 ， 我 们 通过 考虑 在 策略 空间 《而 不 是 参数 空间 ) 中 的 梯 
度 上 升 进一步 提高 策略 梯度 方法 的 性 能 。 一 个 被 广泛 使 用 的 方法 是 信赖 域 策 略 优化 (Trust Region 
Policy Optimization, TRPO), 我 们 会 在 5.7 节 和 5.8 节 介绍 它 及 其 近似 版 本 ， 即 近 端 策略 优化 算法 
(Proximal Policy Optimization, PPO), WARE 5.9 节 中 介绍 使 用 Kronecker 因子 化 信赖 域 的 Actor 
Critic (Actor Critic using Kronecker-factored Trust Region, ACKTR). 

在 本 章 的 最 后 一 节 ， 即 5.10 节 中 ， 我 们 提供 了 所 涉及 算法 的 代码 实现 ， 以 方便 读者 可 以 迅速 
上 手 试验 。 每 个 算法 的 完整 实现 可 以 在 本 书 的 代码 库 找到 3。 










































































5.2 REINFORCE: 初版 策略 梯度 


REINFORCE 算法 在 策略 的 参数 空间 中 直观 地 通过 梯度 上 升 的 方法 逐步 
回顾 一 下 ， 由 式 子 (2.119) 我 们 有 
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注 5.1 上 述 式 子 中 DL, Ri 可 以 看 成 是 智能 体 在 状态 Si 处 选择 动作 4;， 并 在 之 后 执行 当前 策略 
的 情况 下 ， 从 第 i 步 开始 获得 的 累计 奖励 。 SKE, DLR 也 可 以 看 成 QLUAL, S), 4E iR 
5 S; 处 采取 动作 A;， 并 在 之 后 执行 当前 策略 的 @ 值 。 所 以 ， 一 个 理解 REINFORCE 的 角度 是 : 
通过 给 不 同 的 动作 所 对 应 的 梯度 根据 它们 的 累计 奖励 赋予 不 同 的 权重 ,鼓励 智能 体 选 择 那些 累计 
奖励 较 高 的 动作 Ajo 
只 要 把 上 述 式 子 中 的 全 BKR ce 并 赋予 R 以 yt 的 权重 ， 上 述 式 子 很 容易 可 以 扩展 到 折扣 
TH y 的 无 限 范围 的 设 定 如 下 。 
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由 于 折扣 因子 给 未 来 的 奖励 赋予 了 较 低 的 权重 , 使 用 折扣 因子 还 有 助 于 减少 估计 梯度 时 的 方差 大 
的 问题 。 实 际 使 用 中 ，xy* 经 常 被 去 掉 ， 从 而 避免 了 过 分 强调 轨迹 早期 状态 的 问题 。 

虽然 REINFORCE 简单 直观 ， 但 它 的 一 个 缺点 是 对 梯度 的 估计 有 较 大 的 方差 。 对 于 一 个 长 度 
为 工 的 轨迹 ， 奖 励 R, 的 随机 性 可 能 对 工 呈 指数 级 增长 。 为 了 减轻 估计 的 方差 太 大 这 个 问题 ,一 
个 常用 的 方法 是 引进 一 个 基准 函数 5(5;)。 这 里 对 5(5;) 的 要 求 是 : 它 只 能 是 一 个 关于 状态 5; 的 
函数 (或 者 更 确切 地 说 ， 它 不 能 是 关于 A; 的 函数 )。 


3 链接 见 读者 服务 
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有 了 基准 函数 O(S) 之 后 ， 增 强 学 习 目 标 函 数 的 梯度 VJ(9) 可 以 表示 成 



































VJ(0) = E. s, 


t’=0 t=’ 





5 Vo log Tol Av | Su) (= -Ë R; E «s 7 (5.3) 























Eno [Vo log ro (Ael Su)b(Su)] = Ero | (Se)Eo [Vlogro(Avl| Sv) Sv] | =0 64 


















































上 述 式 子 的 最 后 一 个 等 式 可 以 由 EGLP 引 理 〈 引 理 2.2) 得 到 。 最 后 如 算法 5.18 所 示 ， 我 们 得 到 
带 有 基准 函数 的 REINFORCE 算法 。 

































































算法 5.18 带 基 准 函 数 的 REINFORCE 算法 
BBR: 步 长 mp、 奖励 折扣 因子 y. BEAL. HART B. ERM Db. 
输入 : 初始 策略 参数 bo 
初始 化 9 = 0o 
for k=1,2,...,do 
执行 策略 re 得 到 B 个 轨迹 ， 每 一 个 有 工 步 ， 并 收集 {544, Are, Rie} 
Ate = De ey Rie — (Sui) i 
J(8) = BE Deo log To (Ae elSe e) Áo 
0 — 0 - ng V J(0) 
FA (S15, Ate, Rec} 更 新 D(S, p) 
end for 
返回 0 




































































直观 来 讲 ， 从 奖励 函数 中 减 去 一 个 基准 函数 这 个 方法 是 一 个 常见 的 降低 方差 的 方法 。 假 设 需 
要 估计 一 个 随机 变量 X 的 期 望 蕊 [X]。 对 于 任意 一 个 期 望 为 0 的 随机 变量 了 ， 我 们 知道 xX -Y 
KIRE E [X] 的 一 个 无 偏 估计 。 而 且 ， 关 一 了 的 方差 为 










































































V(X —Y) = V(X)+V(Y)— 2cov( X, Y). (5.5) 























式 子 中 的 V RRA, cov(X,Y) 表示 和 和 了 的 协 方差 。 所 以 如 果 Y 本身 的 方差 较 小 ， 而 且 
和 X 高 度 正 相关 ， 那 么 X —Y 会 是 一 个 方差 较 小 的 关于 ELX] 的 无 偏 估计 。 在 策略 梯度 方法 
中 ， 基 准 函 数 的 常见 选择 是 状态 价值 函数 V(5;)。 在 下 一 节 中 我 们 可 以 看 到 ， 这 个 算法 和 初版 的 
Actor-Critic 算法 很 相像 。 最近 的 一 些 研究 工作 也 提出 了 其 他 不 同 的 基准 函数 的 选择 ,， 感 兴趣 的 读 
者 可 以 从 文献 (Li et al., 2018; Liu et al., 2017; Wu et al., 2018) "F T HE £ HIA 
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5.3 Actor-Critic 








Actor-Critic 算法 (Konda et al., 2000; Sutton et al., 2000) 是 一 个 既 基 于 策略 也 基 
在 上 一 节 我 们 提 到 , 在 初版 策略 梯度 方法 中 可 以 用 状态 价值 函数 作为 基 


方差 。 Actor-Critic 算法 也 沿用 了 相同 的 想法 , 同时 学 习 行 动 


于 价值 的 方法 。 
准 函 数 来 降低 梯度 估计 的 
(Actor) 函数 (也 就 是 智能 体 的 策略 


































































































































































































































































































函数 (ls) 和 批判 者 (Critic) 函数 〈 也 就 是 状态 价值 函数 V7r(s))。 此 外 , Actor-Critic 算法 还 沿用 
了 自 举 法 (Bootstrapping) 的 思想 来 估计 @ 值 函 数 。REINFORCE 中 的 误差 项 D>, yt R,— b(S;) 
被 时 间 差 分 误差 取代 了 , 即 Ri + yV7 (Si+ ) = V7(S;)o 
我 们 这 里 采用 工 步 的 时 间 差 分 误差 ， 并 通过 最 小 化 该 误差 的 平方 来 学 习 批判 者 函数 Vp?(s)， 
Bp 
be Y = yV Jyro (Y). (5.6) 
式 子 中 多 表示 学 习 批判 者 函数 的 参数 ，m 是 学 习 步 长 ， 并 且 
2 
1 i+L-1 
Jve) = 5 | 3 YR ea VE (8") — vs) (5.7) 
i—i 
S' 是 智能 体 在 re 下 工 步 之 后 到 达 的 状态 ， 所 以 
i+L—1 
VJyro (9) = | V;^ (S EE YR, — a" Vr (8") | VVZ (5;). (5.8) 
类 似 地 ， 行 动 者 函数 molls) 决定 每 个 状态 s 上 所 采取 的 动作 或 者 动作 空间 上 的 一 个 概率 分 
布 。 我 们 采用 和 初版 策略 梯度 相似 的 方法 来 学 习 这 个 策略 函数 。 
0=0+ No V Jro (9), (5.9) 
这 里 9 表示 行动 者 函数 的 参数 ，76 是 学 习 步 长 ， 并 
i+L—-1 
VJ(0) = Eo Y Vlog mo(Ail Si) | XO v Ri Y VG) — Vz*(8;) (5.10) 
i=0 t=2 
注意 到 ， 我 们 这 里 分 别 用 了 0 和 乡 来 表示 策略 函数 和 价值 函数 的 参数 。 在 实际 应 用 中 ， 当 我 
们 选择 用 神经 网 络 来 表示 这 两 个 函数 的 时 候 ， 经 常会 让 两 个 网 络 共享 一 些 底层 的 网 络 层 作为 共同 
的 状态 表征 (State Representation)。 此 外 ，AC 算法 中 的 工 值 经 常设 为 1, 也 就 是 TD(0) 误差 。AC 
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算法 的 具体 步骤 如 算法 5.19 所 示 。 


算法 5.19 Actor-Critic 算法 
BER: HK no 和 Th. 奖励 折扣 因子 yo 
输入 : 初始 策略 函数 参数 6、 初始 价值 函数 参数 yo。 
初始 化 9= Oo 和沙 = wo。 
for t = 0,1,2,--- do 
执行 一 步 策略 T9, 保存 (Sz, At, Re, Str1}。 
估计 优势 函数 Ay = Ri FIVE” (St+1) — Vj? (S1). 
J(0) — ee log ro (Ar) Ar 























Jyzo (9) = 3, A1 
b= Y + qe V Jyzo (4), 0 = 0 + mV J(0) 
end for 
































值得 注意 的 是 ，AC 算法 也 可 以 使 用 Q 值 函数 作为 其 批判 者 。 在 这 种 情况 下 ， 优 势 函 数 可 以 
用 以 下 式 子 估计 。 





























Q(s, a) — V(s) = Q(s, a) — 5 v (a|s)Q(s, a). (5.11) 


用 来 学 习 Q 值 函数 这 个 批判 者 的 损失 函数 为 
Jo = (Ri + 7Q(Si41, Ana) - Q(Si, AQ) ; (5.12) 


或 者 


2 
Jo = (x + >, Tola|St+1)Q(St+1, a) an olsn ao) E (5.13) 











这 里 动作 Avus 由 当前 策略 re 在 状态 S441 下 取样 而 得 。 

















5.4 ”生成 对 抗 网 络 和 Actor-Critic 


初 看 上 去 ,生成 对 抗 网 络 (Generative Adversarial Networks, GAN) (Goodfellow et al., 2014) 和 
Actor-Critic 应 该 是 截然 不 同 的 算法 ， 用 于 不 同 的 机 器 学 习 领 域 ， 一 个 是 生成 模型 ， 而 另 一 个 是 强 
化 学 习 算 法 。 但 是 实际 上 它们 的 结构 十 分 类 似 。 对 于 GAN， 有 两 个 部 分 ,用 于 根据 菜 些 输 入 生成 
对 象 的 生成 网 络 ， 以 及 紧 接 生成 网 络 的 用 于 判断 生成 对 象 真实 与 否 的 判别 网 络 。 对 于 Actor-Critic 
方法 ， 也 有 两 部 分 : 根据 状态 输入 生成 动作 的 动作 网 络 ， 以 及 一 个 紧 接 动作 网 络 之 后 用 价值 函数 
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《比如 下 一 个 动作 的 价值 或 Q TRO. 评估 动作 好 坏 的 批判 网 络 。 


















































于 生成 物体 ， 第 二 个 用 一 个 分 数 来 评估 生成 物体 的 好 坏 ; 随后 选择 一 个 优化 过 程 来 使 第 二 

































































定义 为 损失 函数 的 标准 ， 也 就 是 一 个 来 自 结 构 第 二 部 分 的 分 数 或 价值 函数 来 实现 。 
GAN 和 Actor-Critic 的 结构 详细 比较 如 图 5.1 所 示 。 























in 反 向 传播 
max D(G(z)) 
z —>| Ems 判别 器 z plaie 
~N(0,1) (Generator) (Discriminator) -> Diz) max D(x) 
Actor-Critic (Qf&) 反 向 传播 min MSE(Q(s,a), r+y*Q(s',a')) 









max Q(s,a) 


E 
来 自 环境 (Actor) (Critic) 





r + y*Q(s',a') 




















KIE, GAN 和 Actor-Critic 基本 遵循 相同 的 结构 。 在 这 个 结构 中 有 两 个 相继 的 部 分 : 一 个 用 


部 
够 准确 评估 ， 并 通过 第 二 部 分 反 向 传播 梯度 到 第 一 部 分 来 保证 它 生 成 我 们 想 要 的 内 容 ， 通 过 一 个 























图 51 对 比 GAN 和 Actor-Critic 的 结构 。 在 GAN F, z 是 输入 的 噪声 变量 ， 它 可 以 从 如 正 态 分 布 


中 采样 ， 而 z 是 从 真实 目标 中 采集 的 数据 样本 。 在 Actor-Critic 中 ，s 和 a 分 别 表 示 状 态 和 








动作 











。 对 第 一 个 生成 物体 的 部 分 : GAN 中 的 生成 器 和 ActorCritic 中 的 行动 者 基本 一 致 ， 包 括 3 
向 推理 过 程 和 反 向 梯度 优化 过 程 。 对 于 前 向 过 程 ， 生 成 器 采用 随机 变量 做 输入 ， 并 输 






































其 前 


出 生 


成 的 对 象 ， 对 于 方向 优化 过 程 ， 它 的 目标 是 最 大 化 对 生成 对 象 的 判别 分 数 。 行 动 者 用 状态 

















作为 输入 并 输出 动作 ， 对 于 优化 来 说 ， 它 的 目标 是 最 大 化 状态 -动作 对 的 评估 值 。 
。 对 于 第 二 个 评估 物体 的 部 分 : 判别 器 和 批判 者 由 于 


























IT 


















































功能 不 同 而 优化 公式 也 不 同 , 但 是 遵循 


相同 的 目标 。 判别 器 有 来 自 真 实 对 象 额外 输入 。 它 的 优化 规则 是 最 大 化 真实 对 象 的 判别 值 而 
最 小 化 生成 对 象 的 判别 值 ， 这 与 我 们 的 需要 相符 。 对 于 批判 者 ， 它 使 用 时 间 差 分 (Temporal 
Difference, TD) 误差 作为 强化 学 习 中 的 一 种 自 举 方法 来 按照 最 优 贝 尔 曼 方程 优化 价值 函数 。 
也 有 一 些 其 他 模型 彼此 非常 接近 。 举 例 来 说 ， 自 动 编码 器 (Auto-Encoder，AE) 和 GAN 可 
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以 是 彼此 的 相反 结构 等 。 注 意 到 ， 不 同 深度 学 习 框架 中 的 相似 性 可 以 帮助 你 获取 关于 现 有 不 同 领 
域 方法 共性 的 认识 ， 而 这 有 助 于 为 未 解决 的 问题 提出 新 的 方法 。 























5.5 ”同步 优势 Actor-Critic 


同步 优势 Actor-Critic (Synchronous Advantage Actor-Critic, A2C) (Mnih et al., 2016) 和 上 一 
节 讨 论 的 Actor-Critic 算法 非常 相似 ， 只 是 在 Actor-Critic 算法 的 基础 上 增加 了 并 行 计算 的 设计 。 
如 图 5.2 所 示 ， 全 局 行动 者 和 全 局 批判 者 在 Master 节点 维护 。 每 个 Worker 节点 的 增强 学 习 
智能 体 通过 协调 器 和 全 局 行动 者 、 全 局 批判 者 对 话 。 在 这 个 设计 中 ,协调 器 负责 收集 各 个 Worker 
入 点 上 与 环境 交互 的 经 验 (Experience)， 然 后 根据 收集 到 的 轨迹 执行 一 步 更 新 。 更 新 之 后 ， 全 局 
行动 者 被 同步 到 各 个 Worker 上 继续 和 环境 交互 。 在 Master 节点 上 ， 全 局 行动 者 和 全 局 批判 者 的 
学 习 方 法 和 ActorCritic 算法 中 行动 者 和 批判 者 的 学 习 方 法 一 致 ， 都 是 使 用 TD 平方 误差 作为 批 
判 者 的 损失 函数 ， 以 及 TD 误差 的 策略 梯度 来 更 新 行动 者 的 。 


全 局 行动 者 和 全 局 批判 者 








EE 
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au 













































































































































































(Vy, ne) (Ap A) Vpro) | | pA) Qu N \ (dy, do) 
Worker Worker 
全 局 行动 者 全 局 行动 者 全 局 行动 者 
和 全 局 批判 者 和 全 局 批判 者 和 全 局 批判 者 
Q | | (r, s') 1 | (r,s') a | | (r,s') 
环境 





图 5.2 A2C 基本 框架 





在 这 种 设计 下 ，Worker 节点 只 负责 和 环境 交互 。 所 有 的 计算 和 更 新 都 发 生 在 Master 节点 。 实 
际 应 用 中 ， 如 果 希 望 降低 Master 节点 的 计算 负担 , 一 些 计 算 也 可 以 转交 给 Worker 节点 4， 比 如 说 ， 
每 个 Worker 节点 保存 了 当前 全 局 批判 者 (Critic)。 收 集 了 一 个 轨迹 之 后 ，Worker 节点 直接 在 本 
地 计算 给 出 全 局 行动 者 (Actor) 和 全 局 批判 者 的 梯度 。 这 些 梯度 信息 继而 被 传送 回 Master 节点 。 
最 后 ， 协 调 器 负责 收集 和 汇总 从 各 个 Worker 节点 收集 到 的 梯度 信息 ， 并 更 新 全 局 模型 。 同 样 地 ， 
更 新 后 的 全 局 行动 者 和 全 局 批判 者 被 同步 到 各 个 Worker 节点 。A2C 算法 的 基本 框架 如 算法 5.20 
所 示 。 


这 经 常 取决 于 每 个 Worker 节点 的 计算 能 力 ， 比 如 是 否 有 GPU 计算 能 力 ， 等 等 
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异步 优势 Actor-Critic 





算法 5.20 A2C 





Master: 
BEM: HAC ny 和 no, Worker 节点 集 W. 
输入 : 初始 策略 函数 参数 90、 初 始 价值 函数 参数 Yoo 
初始 化 9= 00 Fl  — vio 
for k = 0,1,2,--- do 

(gy, ge) =0 

for W 里 每 一 个 Worker 节点 do 

(gu; go) z (Jy, go) 下 worker(V/7^ , To) 

end for 

V = Y — Ny gy; 0 — 0 + Nogo. 
end for 








Worker: 

BER: 奖励 折扣 因子 yY、 轨 迹 长 度 工 。 

输入 : 价值 函数 Vm、 策略 函数 mo 

执行 工 步 策略 ro, 保存 (S1, At, Re, Stri} 

估计 优势 函数 A, = Ri 十 ae (Si44) 一 Vie (9,)。 
J(0) = Y, log ro(4i1S0) At 

Jye (0) =D Â? 

(gy, g0) = (Y Jyzo (4), VJ(0)) 


` 


返回 (gu. go) 


























5.6 “异步 优势 Actor-Critic 


























异步 优势 Actor-Critic (Asynchronous Advantage Actor-Critic, A3C) (Mnih et al., 2016) 是 上 一 








节 中 A2C 的 异步 版 本 。 在 A3C 的 设计 中 ， 协 调 器 被 移 除 。 每 个 Worker 节点 直接 和 全 局 行动 者 和 























全 局 批判 者 进行 对 话 。Master 节点 则 不 再 需要 等 待 各 个 Worker 节点 提供 




















次 有 Worker 节点 结束 梯度 计算 的 时 候 直 接 更 新 全 局 Actor-Critic。 

































































的 梯度 信息 ， 而 是 在 每 


























I FAE 


和 需要 等 待 ，A3C ALL 


A2C 更 高 的 计算 效率 。 但 是 同样 也 由 于 没有 协调 器 协调 各 个 Worker 节点 ，Worker 节点 提供 梯度 
言 息 和 全 局 Actor-Critic 的 一 致 性 不 再 成 立 ， 即 每 次 Master 节点 从 Worker 节点 得 到 的 梯度 信息 很 









































可 能 不 再 是 当前 全 局 Actor-Critic 的 梯度 信息 。 








注 5.2 BA ABC 为 了 计算 效率 而 牺牲 Worker 节点 和 Master 节点 的 一 致 性 这 一 点 看 起 来 有 些 特 
殊 ， 这 种 异步 更 新 的 方式 在 神经 网 络 的 更 新 中 其 实 非 常常 见 。 近 期 的 研究 (Mitliagkas et al., 2016) 
还 表明 ， 异 步 更 新 不 仅 加 速 了 学 习 ， 还 自动 为 SGD 产生 了 类 似 于 动量 (Momentum) 的 效果 。 
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算法 5.21 A3C 





Master: 


BSR: 步 长 ny 和 me、 当前 策略 函数 re 


输入 : 梯度 gu. ge» 


p = V — ygyi; 0 = 0 + ego 





BE (V7, 


TQ) 




















、 价 值 函 数 VS. 





Worker: 
超人 参数 : 奖 
输入 : 策略 
(go, go) = 


励 折 扣 





0,0) 








大 








for k = 1,2,--- , do 
(0, Y) = Master(go, gy) 
Jur 工 步 策略 To, 保存 (S1, At, Ri, Siti} 
估计 优势 函数 A, = Ry + 225 (St41) 一 Vi? (S) 
J(0) = Y^ log To (Alst) At 





Jy (4) = 32, A? 


Fy WEKE Lo 




















函数 re、 价值 函数 VI o 


(9% 90) = (VJyze (0), V J(0)) 


end for 
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截至 目前 , 我们 在 本 章 中 介绍 了 初版 策略 梯度 方法 及 其 并 行 计 算 版 本 。 在 异步 ActorCritic 的 
策略 梯度 中 ， 我 们 更 新 策略 如 下 。 














Ke 
hE 





和 标准 的 梯度 下 降 算 法 一 样 ， 初 版 策 








0 — 0-- ge VJ(0), 














VJ(6) = Ero | > Vlogzo(A;| S;) A" (Si, As) | , 


i—0 


其 中 优势 函数 AT (, a) 定义 为 


A™ (s, a) = Q™ (s, a) — V^ (s). 














(5.14) 


(5.15) 


(5.16) 


各 梯度 方法 也 有 步 长 不 好 确定 的 缺陷 。 梯 度 V J(0) AS 
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身 只 提供 了 在 当前 0 下 
Dx aia SBCA AAT, ABA SUSY 


























局 部 的 一 阶 信息 而 忽略 了 奖励 函数 定义 的 1 








面 的 











HE. MRE RES 















































的 


能 可 能 会 突然 大 幅 下 降 。 相 反 地 ， 如 果 选 择 的 步 长 太 
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小 ， 学 习 的 过 程 可 能 会 太 





呆 守 ， 从 而 非常 缓慢 。 








当前 策略 re 收集 的 样本 





估计 。 











的 样本 的 ER, 这 让 学 习 





初版 策略 梯度 方法 的 另 一 个 局 限 是 : 它 的 更 





X 
际 应 用 






































o(0) 是 Sigmod 函数 。 假 设 在 第 
被 从 0 = 1.5 更 新 到 了 0 = 一 1.5。 两 种 
间 中 从 几乎 是 x ~ (1.00,0.00) 变 成 了 7 ~ (0.95,0.05)， 而 在 另 一 种 情况 下 ， 
新 到 了 m = (0.18, 0.82)。 虽 然 两 者 在 参数 空 











= 


HUF, mo 在 策略 空 
(0.82, 0.18) 被 更 











T = 











HIER 





为 相同 的 步 长 mo 可 能 使 策略 re 在 策略 空间 ， 
更 加 难以 选择 。 举 个 


列子 ， 


EE, 


策略 梯度 方法 中 的 梯度 V.7(0) 需 








需要 从 基于 

















策略 性 能 的 突然 下 降 或 才 

















EE 对 于 步 长 的 选择 更 敏感 。 











新 是 在 参数 空 








D - (sn 20, {7 =1}. 


提升 太 过 缓慢 ， 会 反 过 3 


影响 收集 到 


YE ZX 一 


XETT 

















间 ， 而 不 是 策略 空间 1 的 。 





(5.17) 















































略 空 间 中 的 更 
FEAT 














个 能 更 好 处 到 








种 | 

















情况 re 在 参数 空间 中 





有 完全 不 一 村 


幅度 的 更 新 ， 这 使 得 步 长 ng 在 实 





考虑 当前 的 策略 m = (c(0)， 
青 况 下 ，0 被 从 0 = 6 更 新 到 了 0 = 3。 而 在 另 一 
和 更 新 






































1 一 o(9)) 的 两 种 不 同情 况 。 这 旦 
' 情 况 ! 
然而 ， 在 第 























, 0 
一 种 























HEERE 3。 





















































新 幅度 却 完 全 不 同 。 
， 我 们 会 开发 一 


! 步 长 的 策 











想法 , 所 以 被 称 为 信赖 域 策略 优化 算 


我 们 的 目 





2015)。 注 意 到 ， 





提供 了 一 个 很 深刻 的 联系 : 


文献 (Kakade et al., 2002) 让 6’ # 


引 理 5.1 





这 里 (0) = 























TOTS E veia] š 
t=0 
然而 ， 上 述 式 子 其 实 难以 直接 优化 ， 因 为 式 子 中 的 
一 个 近似 ， 我 们 用 C (7) 表示 ， 如 下 式 。 























标 是 找 


DNE 





到 一 个 比 
到 a 在 性 能 
示 zh 的 参数 。 























t=0 





























oo 
E 
ATOT 



































t=0 


P» 7 A"* (Ss, a] 


略 梯度 算法 。 这 个 算法 的 ， 
iik (Trust Region Policy Optimization, TRPO) (Schulman et al., 

原 策略 re 更 好 的 策略 mo. FRIN mo 和 my 的 性 能 
能 上 的 提升 ， 可 以 由 re 的 优势 函数 AT (s, a) 来 计算 。 























的 更 新 幅度 相同 ， 但 是 在 策 


ig] 






































CADET fe Wi) 











es Era] . (5.18) 


roro Door R(S Ag], 7 是 由 产生 的 同 状态 动作 轨迹 。 


所 以 ， 学 习 最 优 的 集 略 mo 等 价 于 最 大 化 以 下 这 个 目标 


(5.19) 





期 望 是 在 my 上 。 基 于 此 ，TRPO 优化 该 式 子 的 








(5.20) 
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= spas (5) [Benen (al [A™ (s, a)| sl (5.21) 
fd Ep. (s) [Es s; [A7 (s,a)| sl (5.22) 
Lp : Talal s) As, 
= | amvre(al s) ma e] (5.23) 
7 3 ufo C St) ao 
— rg ———— Ave ,4 y .24 
» mA S) 4 S ] xs 
用 Ln (mw) 表示 上 述 等 式 的 最 后 一 个 式 子 ， 即 
LE (Atl St) are 
Cro (T8) = 此 7T~Tp » URS (S4, Az) 7 
在 上 面 的 式 子 中 ， 我 们 直接 用 px, (s) 来 近似 pu (s)。 这 个 近似 虽然 看 似 粗糙 ,但 下 面 的 定理 在 理 
论 上 证 明了 ， 当 re 和 m 相似 的 时 候 ， 这 个 近似 并 不 差 。 
E 5.1 让 DR (nol) = maxs Dr(re( sjlng(|s)) 那么 
|J(6*) — J(0) — £x, (mo)| < CD (To ||776)- (325) 


这 里 CO Rho nl 无 关 的 常数 。 









































地 被 作为 一 个 优化 目标 。 这 便 是 TRPO 


























因此 , 如 果 DEX (06 ||) 很 小 , 那么 La, (05) 可 以 合 至 
的 想法 。 实 际 中 ，TRPO 试图 在 平均 KL 散 度 的 约束 下 优化 Cr (rr 人， 如 下 所 示 。 
max Cro(Tb) 
s.t. e [Drr (16||n5)] x ó. 














(5.26) 








我 们 进一步 讨论 如 何 解 TRPO : 








的 这 个 优化 问题 。 这 里 我 们 利 / 











的 二 阶 近似 。 事 实 上 ，C (ah) 在 策 











g = VoLro(To)lo = 








] 目 标 函 数 的 一 阶 近似 和 约束 
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HA mo 处 的 梯度 和 Actor-Critic 中 一 样 。 











c» Veni Ai St) 
E e MEL LABEM 5.27 
í t=0 * fo (Ad St) (nda) 9 : : 
P 3 t Teo 
ATN NAO > y Vo log to ( Ad] St) A (Si, a] à (5.28) 
t=0 0 


5.8 近 端 策略 优化 























此 外 , ik H Xm Es~p,, [Dku(rellrg)] 的 Hessian 矩阵 ， 那 么 ，TRPO 在 当前 的 re 求解 如 下 
优化 问题 。 


0' = arg max g (0' — 0) (5.29) 


st (6 — 0)' H(9'-0) <6. 


易 见 这 个 问题 的 解析 解 存 在 : 





26 2 
0 =0+ g Hag 1g. (5.30) 














Sein, FRA HI SEC E SOE ORI 五 -19g5。 我 们 选择 合适 的 步 长 来 保证 满足 样本 上 的 
KL 散 度 约 束 。 最 后 , 价值 函数 的 学 习 通 过 最 小 化 MSE 误差 达到 。 基 于 论文 (Schulman et al., 2015) 
的 完整 的 TRPO 算法 在 算法 5.22 中 。 
注 5.3 负 值 Hessian 4E —H 也 被 称 为 Fisher 12. 272%. BRE, Amt, + Fisher 13.24 
阵 应 用 到 梯度 下 降 算 法 中 已 经 有 不 少 的 研究 ， 被 称 为 自然 梯度 (Nature Gradient) 下 降 。 这 个 方 
法 的 一 个 好 处 是 ， 它 对 于 再 参数 化 是 不 变 的 ， 也 即 ， 不 管 函 数 参 数 化 的 方法 是 什么 ， 该 梯度 保持 
不 变 。 想 了 解 更 多 关于 自然 梯度 的 细节 ， 请 参考 论文 (Amari, 1998). 


















































5.8 rum RE IL 


上 一 节 我 们 介绍 了 信赖 域 策 略 优化 算法 CTRPO). TRPO 的 实现 较为 复杂 ， 而 且 计 算 自 然 
梯度 的 计算 复杂 度 也 较 高 。 即 使 是 用 共 思 梯 度 法 来 近似 五 -1g， 每 一 次 更 新 参数 也 需要 多 步 的 
共 轿 梯度 算法 。 在 这 一 节 中 ， 我 们 介绍 另 一 个 策略 梯度 方法 ， 即 近 端 策略 优化 (Proximal Policy 
Optimization, PPO). PPO 用 一 个 更 简单 有 效 的 方法 来 强制 re 和 rh 相似 (Schulman et al., 2017). 
回顾 TRPO 中 的 优化 问题 式 (5.26): 





































































































max L,,(79) (5.35) 
T$ 
S.t. Ls~pro [Dx (o ||15)] x ó. (5.36) 











与 其 优化 一 个 带 约束 的 优化 问题 ，PPO 直接 优化 它 的 正则 化 版 本 。 




















max Ly, (75) —A Es~ pry [Dxx(6||76)] - (5.37) 
To 
































5 一 般 来 讲 ， 计 算 H 71 需要 计算 复杂 度 O(N3)。 这 在 实际 应 用 中 一 般 代价 十 分 晶 贵 ， 因 为 这 里 的 N 是 模型 参数 的 个 
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算法 5.22 TRPO 








超 参 数 : KL- 散 度 上 限 S HMR a RAEMP K. 

输入 : 回放 缓存 D6、 初 始 策略 函数 参数 0、 初 始 价值 函数 参数 Goo 

for episode = 0,1,2,--- do 

在 环境 中 执行 策略 zj = n(0x) 并 保存 轨迹 集 Dy, = {Ti} 0 

计算 将 得 到 的 奖励 Gy 

基于 当前 的 价值 函数 Vo, 计算 优势 函数 估计 A, (使 用 任何 估计 优势 的 方 
估计 策略 梯度 










































































1 
Ok = [Dil N 5 Vo log 76(Ail St) 9, At 


TED t=0 























EHRM ES Th GE 








^ fra 
Sy ~ H; ĝk 


这 里 ET, 是 样本 平均 KL 散 度 的 Hessian JB[ 
通过 回调 线 搜索 更 新 策略 : 











20 


LT HL 





0,,1 = 0, +0! Êk 





















































梯度 下 降 的 算法 最 小 化 均 方 误差 来 拟 合 价值 函数 ， 











T 
Qk41 = arg min Dar b» 5 (Vo(Se) Tz à) 


TED, t=0 


end for 


ik). 


(5.31) 


(5.32) 


(5.33) 


是 {0, 1,2,… K} 中 提高 样本 损失 并 且 满 足 样本 KL 散 度 约束 的 最 小 值 。 
上 


(5.34) 

















这 里 A 是 正则 化 系数 。 对 于 式 (5.26) 每 一 个 5 值 ， 都 有 一 个 相对 应 的 A 使 得 两 个 优化 问题 有 相同 
































的 解 。 然 而 , A 的 值 依赖 于 ro。 基于 此 , 在 式 (5.37) 使 用 一 个 适应 性 的 A 更 合理 




















H 
Eo 














Æ PPO rp, 我 们 



































通过 检验 KL 散 度 的 值 来 决定 A 的 值 应 该 增 大 还 是 减 小 。 这 个 版 本 的 PPO 算法 称 为 PPO-Penalty。 








这 个 版 本 的 实现 如 算法 5.23 所 示 (Heess et al., 2017; Schulman et al., 2017)。 





另 一 个 方法 是 直接 剪断 用 于 策略 梯度 的 目标 函数 ， 从 而 得 到 更 保守 的 更 新 。 

















让 (20) 表示 两 





























个 策略 的 比值 BAAS 。 经 验 表明 ， 下 述 目标 函数 可 以 让 策略 梯度 方法 有 稳定 的 学 习性 能 : 














LIPOIC) = E, [min (6(9) A" (Se, Av), clip(£:(6"),1 — 6,1 + e)A™*(S, 4 — 638 


这 里 clip(z, 1— e, 1+ €) f x RÆ [1— e, 1-- e] 






































。 这 个 版 本 的 算法 被 称 为 PPO-Clip, 如 算法 5.24 





所 示 (Schulman et al., 2017)。 更 具体 ，PPO-Clip 先 将 £,(0^) 截断 在 [1 — e, 1 + e] 中 来 保证 了 和 To 
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算法 5.23 PPO-Penalty 


超 参 数 : 奖励 折扣 因子 y, KL 散 度 惩罚 系数 A， 适 应 性 参数 a = 1.5,b = 2, FIRMA M, B. 
输入 : 初始 策略 函数 参数 09、 初始 价值 函数 参数 o. 
fork = 0,1,2,--- do 
执行 全 步 策略 Tos ATF (55 An Rie 
估计 优势 函 数 At = Fisi t Ry i Val St) o 
Told «— To 
for m € (1,- ME do 
Jppo(g) = xt 1 SCRI, Ay — AÊ, [Dia (roa C152) ]hro C180)] 
使 用 梯度 算法 基于 Jppo(0) 更 新 策略 函数 参数 0。 
end for 
forb € {1,--- , B} do 


2 
LO) = = xa (esit! Ry — ValS) 
使 用 梯度 算法 基于 Lo) 更 新 价值 函数 参数 o- 
end for 
计算 4 = By [Dia (Toull Solto C189))] 
if d < dtarger/a then 
A + Afb 
else if d > dtarget x a then 
Ac—Axb 
end if 
end for 

























































































相似 。 最 后 ， 取 截断 的 目标 函数 和 未 截断 的 目标 函数 中 较 小 的 一 方 作为 学 习 的 最 终 目标 函数 。 所 
以 ，PPO-Clip 可 以 理解 为 在 最 大 化 目标 函数 的 同时 将 从 re 到 00 的 更 新 保持 在 可 控 范 围 内 。 
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使 用 Kronecker 因子 化 信赖 域 的 Actor-Critic (Actor Critic using Kronecker-factored Trust Region, 
ACKTR) (Wu et al., 2017) 是 降低 TRPO 计算 负担 的 另 一 个 方法 。ACKTR 的 想法 是 通过 Kronecker 
妹子 近似 曲 度 方法 (Kronecker-Factored Approximated Curvature,K-FAC ) (Grosse et al., 2016; Martens 
et al., 2015) 来 计算 自然 梯度 。 在 这 一 节 中 ， 我 们 介绍 如 何 用 ACKTR 来 学 习 MLP 策略 网 络 。 

注意 到 




















































































































e? 
48~ Dri Lis Dru) (5.45) 
0? 
= —Esn pray 2, Tora als) 5 log To (als) (5.46) 
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算法 5.24 PPO-Clip 








超 参数 : 截断 因子 e TERRÉ M, B 

输入 : 初始 策略 函数 参数 0、 初始 价值 函数 参数 o. 
for k = 0,1,2,--- do 
在 环境 中 执行 策略 To, 并 保存 轨迹 集 Dy, = {Ti} > 

计算 将 得 到 的 奖励 G,. 

基于 当前 的 价值 函数 Vj, 计算 优势 函数 A, 〈 基 于 任何 优势 函数 的 估计 方法 )。 
for m € {1,--- , M} do 












































































































































, 79 (A1|S1) 
bi(0) = — 5.39 
OS zo ASD) uS 
采用 Adam 随机 梯度 上 升 算法 最 大 化 PPO-Clip 的 目标 函数 来 更 新 策略 : 
0,1 = arg max T 5. 7 » x min(£, (0^) AT9w (S,, At), (5.40) 
clip(£, (0), 1 — e, 1 + e) A"^w (S,, A;)) (5.41) 
end for 
for b € {1,--- , B} do 
采用 梯度 下 降 算 法 最 小 化 均 方 误差 来 学 习 价值 函数 : 
Ọk+1 THERE ule 5 T 5 y (VS) (S,) 一 = 
| | TED, t=0 
end for 
end for 
82 
= —Esnvp,,, | anus 320 log o(a|s) (5.47) 
= i | (Vo log ro(als)) (Vo og o(als)) "| (5.48) 










































































在 TRPO F, dA ti EAS SRA ie, 五 -1g。 在 ACKTR 中 ， 我 们 用 一 个 分 块 





对 角 和 矩阵 来 来 近似 态 ~-1。 和 矩阵 的 每 一 块 对 应 神经 网 络 每 一 层 的 Fisher 信息 和 矩阵。 假设 网 络 的 第 0 
























































FEW tou = Wearing KH Wi 的 维度 为 dou x dn。 我 们 来 介绍 ACKTR 分 解 的 想法 。 
层 的 梯度 Vw,L 是 (Veron L) 和 Lin 的 外 R (Vae Lys 所 以 





(Yolog ro(als)) (Velogze(a|s)) = aint, @ (Vau D)(Va, L)", 
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注意 到 这 一 


(5.49) 


5.10 策略 梯度 代码 例子 














这 里 Q 是 Kronecker 乘积 。 进 一 步 











所 以 ， 与 其 对 一 个 (dindout) X (dindoub 的 矩阵 求 逆 ， 从 而 需要 Oldi du) 计算 复杂 度 ，ACKTR 只 


—1 


(vo log no(als)) (Vo log mo (als) ) g (5.50) 

= (vua e Paa N: g (5.51) 
ex —1 

= [(ssez) & ((Va. (Va L)7) E (5.52) 











需要 对 两 个 维度 为 dm x din 和 dout x dou 的 矩阵 求 逆 ， 从 而 计算 复杂 度 只 有 O(d + d3,). 
ACKTR 算法 的 实现 如 算法 5.25 所 示 。ACKTR 算法 也 可 以 被 用 于 学 习 价值 网 络 。 感 兴趣 的 


读者 可 以 参考 论文 (Wu et al., 2017) 了 解 更 多 的 细节 ， 我 们 这 里 不 做 详细 解释 。 





算法 5.25 ACKTR 










































































MBM: 步 长 quas KL-BUSE ER ô- 
KEF D、 初 始 策略 函数 参数 Oo. IAS B RASA bo 
fork =0,1,2,---. do 


输入 : 空 回 
































在 环境 ， 











执行 策略 m, = n(0,) 





计算 累积 奖励 Gto . 
基于 当前 的 价值 函数 Va, 计算 优势 函数 A, 《基于 任何 优势 函数 的 估计 方法 )。 
估计 策略 梯度 。 


jk = 


for l =0,1,2,--- do 
vec(A01) = vec( Ar "Vo ĝk S7 `) 

















这 里 A, = laaf], Si = ‘| 














^R 














并 保存 轨迹 集 D, = (ri = 0,1,- }o 











T 
1 A 
[Dx| >3 > Vo log ro(A«|St)|o, At (5.42) 


TED, t=0 











(Vsdx)(Vs,9x)!] (Ar, Si 通过 计算 片段 的 滚动 平均 值 所 得 )， 














a, 是 第 | 层 的 输入 激活 向 量 ，s; = Wa), vec(-) 是 把 矩阵 变换 成 一 维 向 量 的 向 量化 变换 。 


end for 


























K-FAC 近似 自然 梯度 来 更 新 





























end for 











策略 : 


Ok+1 = Ox + nAOk (5.43) 


Em Æ Nk = min (Nmax, 4/ an” Hi = A; ® Sj. 


过 
采用 Gauss-Newton 二 阶梯 度 下 降 方法 〈 并 使 用 K-FAC 近似 ) 最 小 化 均 方 误差 来 学 习 价 值 函 
数 : 











T 
. 1 2 
Ọk+1 = arg min IT 5 > (Vis(St) — Gt) (5.44) 


TED, t=0 
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5.10 ”策略 梯度 代码 例子 


在 前 几 节 中 ， 我 们 在 理论 角度 介绍 了 几 个 基于 策略 梯度 算法 的 伪 代 码 ， 介 绍 的 内 容 包 括 RE- 
INFORCE (初版 策略 梯度 )、Actor-Critic (AC)、 同 步 优势 ActorCritic (A2C)、 异 步 优 势 ActorCritic 
CA3C)、 信 和 赖 域 策略 优化 〈TRPO)、 近 端 策 略 优化 (PPO)、 使 用 Kronecker 因子 化 信赖 域 的 Actor 
Critic CACKTR )。 在 本 节 中 , 我 们 将 提供 以 上 部 分 算法 的 Python 代码 例子 。 例子 中 以 OpenAIGym 
作为 游戏 环境 。 我 们 会 先 简单 地 介绍 一 下 在 例子 中 用 到 的 环境 ， 之 后 详细 介绍 各 算法 的 实现 。 虽 
然 本 章 中 介绍 的 多 数 算法 都 能 应 用 于 离散 和 连续 的 环境 , 但 在 实现 中 对 于 离散 和 连续 环境 的 处 理 
有 一 些 不 同 。 这 里 我 们 提供 的 例子 只 是 作为 演示 ， 只 能 应 用 在 同一 种 动作 空间 的 特定 环境 中 。 不 
过 读者 可 以 通过 简单 地 修改 就 能 使 代码 应 用 于 不 同 动 作 空间 的 其 他 环境 中 。 完 整 代码 在 GitHub 
库 中 6， 例 子 参考 并 改编 自 许 多 开源 资料 ， 感 兴趣 的 读者 可 以 参考 各 代码 简介 注释 中 Reference 部 
分 所 提 及 的 内 容 进 行 扩展 学 习 。 


































































































































































































5.10.1 相关 的 Gym 环境 


在 以 下 几 节 中 提供 例子 的 环境 都 基于 OpenAI Gym 环境 。 这 些 环境 可 以 被 分 为 离散 动作 空间 
的 环境 和 连续 动作 空间 的 环境 。 























import gym 
env = gym.make(’Pong-V0’) 


print(env.action space) 














上 述 代码 建立 了 一 个 ID 为 Pong-VO 的 环境 ， 并 且 打 印 出 了 它 的 动作 空间 。 将 Pong-VO 这 个 ID H 
成 其 他 诸如 CartPole-V1 或 者 Pendulum-V0 的 ID 可 以 建立 相应 的 环境 。 
以 下 几 节 中 的 代码 会 用 到 一 些 开 源 库 。 这 里 通过 如 下 代码 引入 它们 。 





















































import numpy as np 
import tensorflow as tf 
import tensorflow_probability as tfp 


import tensorlayer as tl 





离散 动作 空间 环境 : Pong 5 CartPole 

















这 里 将 介绍 两 个 OpenAI Gym 中 使 用 离散 动作 空间 的 游戏 : Pong 和 CartPole。 





6 链接 见 读者 服务 
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Pong 
在 Pong 游戏 中 (如 图 5.3 所 示 ), 我 们 控制 绿色 的 板子 上 下 移动 来 弹 球 。 这 里 使 用 了 Pong-VO 


版 本 。 在 这 个 版 本 中 ， 状 态 空间 是 一 个 RGB 图 像 向 量 ， 形 状 为 (210, 160, 3)。 需 要 输入 的 动作 是 
一 个 在 0,1,2,3,4,5 中 的 整数 ， 分 别 对 应 如 下 动作 : 0 空 动 作 ，1 开火 ，2 右 , 3 左 , 4 右 十 开火 ,5 














左 十 开火 。 
5.3 Pong 
CartPole 





CartPole( 如 图 5.4 所 示 ) 是 一 个 经 典 的 倒立 摆 环 境 。 我 们 通过 控制 小 车 进行 左右 移动 , 来 使 
杆子 保持 直立 。 在 CartPole-V0 环境 中 ， 观 测 空间 是 一 个 4 维 向 量 ， 分 别 表示 小 车 的 速度 、 小 车 
的 位 置 、 杆 子 的 角度 、 杆 子 顶 端的 速度 。 需 要 输入 的 动作 是 一 个 为 0 或 者 1 的 整数 ， 分 别 控制 小 
车 左 移 和 右 移 。 











图 54 CartPole 


连续 动作 空间 环境 : BipedalWalker-V2 与 Pendulum-V0 


本 节 中 ， 我 们 将 介绍 使 用 连续 动作 空间 的 环境 : BipedalWalker-V2 和 Pendulum-V0。 
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BipedalWalker-V2 





BipedalWalker-V2 是 一 个 双 足 机 器 人 仿真 环境 (如 图 5.5 所 示 )。 在 环境 中 ， 我 们 要 控制 机 器 
人 在 相对 平坦 的 地 面 上 行走 ， 并 最 终 到 达 目 的 地 。 其 状态 空间 是 一 个 24 维 向 量 ， 分 别 表示 速度 、 
角度 信息 ， 以 及 前 方 视野 情况 《〈 详 见 表 5.1)。 环 境 的 动作 空间 是 一 个 4 维 的 连续 动作 空间 ， 分 别 
控制 机 器 人 的 2 个 膝 关 节 、2 个 辟 关 节 ， 一 共 4 个 关节 进行 旋转 。 


Pendulum-V0 


Pendulum-VO 





















































图 5.5 BipedalWalker-V2 


表 5.1 BipedalWalker-V2 各 维度 状态 意义 简介 


简介 ES 简介 

壳 体 角度 1 号 腿 触 地 状态 
壳 体 角速度 2 SRR AE 
壳 体 z 方向 速度 2 SEX TEE 
壳 体 y 方向 速度 2 SRT A 
1 SAW AE 2 SRW 
1 SWE 2 号 腿 触 地 状态 
1 SEWAGE 10 位 前 方 雷达 测 距 值 
1 号 膝 关 节 速 度 

































































也 是 一 个 经 典 的 倒立 摆 环 境 〈 如 图 5.6 所 示 )。 在 环境 中 ， 我 们 需要 控制 杆子 旋 











转 来 让 其 直立 。 环 境 的 状态 空间 是 一 个 3 维 向 量 ， 分 别 代表 cos (0). sin(8) 和 A(b)。 其 中 6 是 杆 
子 和 垂直 向 上 方向 的 角度 。 环 境 的 动作 是 一 维 的 动作 ， 来 控制 杆子 的 旋转 力矩 。 
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图 56 Pendulum-VO 























值得 注意 的 是 ， 该 环境 中 没有 终止 状态 。 这 里 的 意思 是 ， 必 须 人 为 设置 游戏 的 结束 。 在 默认 
情况 下 ， 环 境 的 最 大 运行 步 长 被 限制 为 200 步 。 当 运行 超过 200 步 时 ，step() 函数 返回 的 Done 
变量 将 为 Tue。 由 于 有 这 个 限制 ， 当 我 们 每 个 回合 片段 运行 超过 过 200 步 时 ,代码 逻 辑 会 因为 收 到 
done 信号 而 退出 该 回合 。 通 过 如 下 代码 可 以 移 除 这 个 限制 。 
















































































= 





























import gym 
env = gym.make(’ Pendulum-V0’) 
env = env.unwrapped # 解除 最 大 步 长 的 限制 





5.10.2 REINFORCE: Atari Pong 和 CartPole-V0 


Pong 
开始 之 前 ， 我 们 需要 准备 一 下 环境 、 模 型 、 优 化 器 ， 并 初始 化 一 些 之 后 会 用 上 的 变量 。 

















env = gym.make("Pong-V0") # 创建 环境 
observation = env.reset() # 重 置 环境 





prev_x = None 
running_reward = None 
reward sum = 0 


episode number = 0 


# 准备 收集 数据 
xs, ys, rs = [], [], [] 
epx, epy, epr = [], [I], [] 


model = get model([None, D]) # 创建 模型 


train_weights = model.trainable_weights 


optimizer = tf.optimizers.RMSprop(lr-learning rate, decay=decay_rate) # 创建 优化 器 
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model.trainO # 设置 模型 为 训练 模式 (防止 模型 被 加 上 Dropout) 


start_time = time.time() 


game_number = 0 











在 完成 准备 工作 之 后 ， 就 可 以 运行 主 循环 了 。 首 先 ， 我 们 需要 对 观测 数据 进行 预 处 理 ， 并 将 




















处 至 





后 的 数据 传递 给 变量 rz。 在 将 z“ 喂 ”入 网 络 之 后 ， 我 们 将 从 网 络 得 到 每 个 动作 的 执行 概率 。 








了 Softmax 函数 输出 动作 概率 ， 最 后 通过 概率 选择 动作 。 















































为 了 简化 难度 ， 在 这 里 只 用 到 了 3 个 动作 : 空 动作 、 上 、 下 。 在 REINFORCE 算法 中 ， 使 用 









































while True: 


if render: 


env.render() 


cur x - prepro(observation) 
X = cur x - prev x if prev x is not None else np.zeros(D, dtype-np.float32) 
x - x.reshape(1, D) 


prev x - cur x 


_prob = model (x) 
prob = tf.nn.softmax( prob) 


# 动作 1: 空 动作 2: 上 3: 下 


action = tl.rein.choice_action_by_probs(prob[0].numpy(), [1, 2, 3]) 




















现在 基于 当前 状态 选 出 了 一 个 动作 。 接 下 来 要 用 该 动作 和 环境 进行 交互 。 环 境 根据 当前 收 到 

















的 动作 执行 到 下 一 步 ， 并 返回 观测 数据 、 奖 励 、 结 束 状态 和 额外 信息 (对 应 代码 中 的 变量 _)。 我 
们 将 这 些 数 据 存储 起 来 用 于 之 后 的 更 新 。 














observation, reward, done, _ = env.step(action) 


reward_sum += reward 

xs.append(x) 4 一 个 片段 内 的 所 有 观测 数据 

ys.append(action - 1) 4 一 个 片段 内 的 所 有 伪 标 签 〈 由 于 动作 从 1 开始 ， 所 以 这 里 减 1) 
rs.append(reward) # 一 个 片段 内 的 所 有 奖励 
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WA stepO 返回 的 结束 状态 为 True， 说 明 当 前 片段 结束 。 我 们 可 以 重 置 环 境 并 开始 一 个 





5.10 策略 梯度 代码 例子 


























新 的 片段 。 但 在 那 之 前 ,我 们 需要 将 刚刚 采集 的 本 片段 的 数据 进行 处 理 ， 之 后 存 入 跨 片 段 数据 列 
表 中 。 



































if done: 
episode_number += 1 


game_number = 0 


epx.extend(xs) 

epy.extend(ys) 

disR = tl.rein.discount_episode_rewards(rs, gamma) 
disR -= np.mean(disR) 

disR /= np.std(disR) 

epr.extend(disR) 

xs, ys, rs = [], [], [] 
































智能 体 在 进行 了 很 多 局 游戏 ， 并 收集 了 足够 的 数据 之 后 ， 就 可 以 开始 更 新 了 。 我 们 使 用 交叉 
焙 损 失 和 梯度 下 降 方法 来 计算 各 参数 的 梯度 ， 之 后 将 梯度 应 用 在 相应 的 参数 上 ， 并 结束 更 新 。 



































if episode_number 
print(’batch over...... updating parameters...... $9) 
with tf.GradientTape() as tape: 
_prob = model(epx) 


_loss = tl.rein.cross_entropy_reward_loss(_prob, epy, disR) 





grad = tape.gradient(_loss, train_weights) 


optimizer.apply_gradients(zip(grad, train weights)) 


epx, epy, epr = [], [J], [] 











以 上 内 容 描述 了 主要 工作 ， 之 后 的 代码 主要 用 于 显示 训练 相关 数据 ， 以 便 更 好 地 观察 训练 走 
势 。 我 们 可 以 使 用 滑动 平均 来 计算 每 个 片段 的 运行 奖励 ， 以 降低 数据 拌 动 的 程度 , 方便 观察 趋势 。 
最 后 ， 做 完 这 些 内 容 后 别 忘 了 重 置 环境 ， 因 为 此 时 当前 片段 已 经 结束 了 。 






























































iml 














# if episode_number 


# tl.files.save npz(network.all params, name-model file name + '.npz') 

running reward = reward sum if running reward is None else running reward * 0.99 
+ reward sum * 0.01 

print('resetting env. episode reward total was {}. running mean: 


[3'.format(reward sum, running reward)) 
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reward_sum = 0 
observation = env.reset() 


prev_x = None 


if reward != 0: 
print ( 
( episode 
Cepisode number, game number, time.time() - start time, reward) 
), C’ if reward == -1 else ' !!!!!111") 
) 
start time - time.time() 


game number += 1 





CartPole 


这 个 例子 中 ， 算 法 和 Pong 的 一 样 。 我 们 可 以 考虑 将 整个 算法 放 入 一 个 类 中 ， 并 将 各 部 分 代 
码 写 入 对 应 的 函数 。 这 样 可 以 使 得 代码 更 为 简洁 易 读 。PolicyGradient 类 的 结构 如 下 所 示 : 















































class PolicyGradient: 
def __init__(self, state dim, action num, learning_rate=0.02, gamma=0.99): 
# 类 初始 化 。 创 建 模型 、 优 化 器 和 需要 的 变量 
def get action(self, s, greedy-False): # 基于 动作 分 布 选择 动作 


def store_transition(self, s, a, r): # 存储 从 环境 中 采样 的 交互 数据 








def _discount_and_norm_rewards(self): 4 计算 折扣 化 回报 并 进行 标准 化 处 理 


























初始 化 函数 先后 创建 了 一 些 变量 、 模 型 并 选择 Adam 作为 策略 优化 器 。 在 代码 中 ， 我 们 可 以 
看 出 这 里 的 策略 网 络 只 有 一 层 隐 藏 层 。 


ul 











1 
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度 代码 例子 








def __init__(self, state dim, action num, learning_rate=0.02, gamma=0.99): 


self.gamma - gamma 


self.state buffer, self.action buffer, self.reward buffer = [], [], [] 


input layer - tl.layers.Input([None, state dim], tf.float32) 


layer = tl.layers.Dense( 


n_units=30, act-tf.nn.tanh, W init-tf.random normal initializer(mean-6, 


stddev=0.3), 
b_init=tf.constant_initializer(0.1) 
) (input. layer) 


all act = tl.layers.Dense( 


n units-action num, act-None, W init-tf.random normal initializer(mean-6, 


stddev=0.3), 
b_init=tf.constant_initializer(0.1) 
) (layer) 


self.model = tl.models.Model(inputs-input layer, outputs-all act) 
self.model.trainO 


self.optimizer - tf.optimizers.Adam(learning rate) 








在 初始 化 策略 网 络 之 后 ， 我 们 可 以 通过 get actionO 函数 计算 某 状态 下 各 动作 
过 设置 'greedy=True’*”， 可 以 直接 输出 概率 最 高 的 动作 。 









































的 概率 。 通 

















def get_action(self, s, greedy=False): 
_logits = self.model(np.array([s], np.float32)) 
_probs = tf.nn.softmax(_logits) .numpy() 
if greedy: 
return np.argmax(_probs.ravel()) 


return tl.rein.choice_action_by_probs(_probs.ravel()) 














(HERE, RADER ENT READ. AA ARTS J PPAR A HOR HB 
































断 。 每 次 的 学 习 过 程 由 learnO 函数 完成 ， 这 部 分 函数 的 代码 基本 也 和 Pong 例子 中 
使 用 标准 化 后 的 折扣 化 奖励 和 交叉 炉 损 失 来 更 新 模型 。 在 每 次 更 新 后 , 学 过 的 转移 数 扩 

















= 


一 样 。 我 们 
居 将 被 丢弃 。 











def learn(self): 
# 计算 标准 化 后 的 折扣 化 奖励 


discounted ep rs norm = self._discount_and_norm_rewards() 
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à 
tA 
d 





with tf.GradientTape() as tape: 
_logits = self.model(np.vstack(self.ep. obs)) 


neg. log prob - tf.nn.sparse softmax cross entropy with logits(logits- logits, 





labels-np.array(self.ep as)) 


loss = tf.reduce mean(neg. log prob * discounted ep rs norm) 


grad - tape.gradient(loss, self.model.trainable weights) 


self.optimizer.apply. gradients(zip(grad, self.model.trainable weights)) 


self.ep obs, self.ep as, self.ep rs = [], [], [] # 清空 片段 数据 
return discounted ep rs norm 





























learnO 函数 需要 使 用 智能 体 与 环境 交互 得 到 的 采样 数据 
sition() 来 存储 交互 过 程 中 的 每 个 状态 、 动 作 和 奖励 。 





TH 
zt 

















此 我 们 需要 使 用 store tran- 



































def store_transition(self, s, a, r): 
self.ep_obs.append(np.array([s], np.float32)) 
self.ep_as.append(a) 
self.ep rs.append(r) 























T 


策略 梯度 算法 使 用 蒙特 卡 罗 方 法 。 因 此 ， 我 们 需要 计算 折扣 化 回报 ， 并 对 回报 进行 标准 化 ， 
也 有 助 于 学 习 。 














def _discount_and_norm_ rewards(self): 

# 计算 折扣 化 片段 奖励 

discounted_ep_rs = np.zeros_like(self.ep_rs) 

running. add = 0 

for t in reversed(range(8, len(self.ep_rs))): 
running. add = running add * self.gamma + self.ep rs[t] 
discounted ep rs[t] = running add 

# 标准 化 片段 奖励 

discounted_ep_rs -= np.mean(discounted_ep_rs) 

discounted_ep_rs /= np.std(discounted_ep_rs) 


return discounted_ep_rs 








和 Pong 的 代码 一 样 , 我 们 先 准备 好 环境 和 算法 。 在 创建 好 环境 之 后 , 我 们 产生 一 个 名 为 agent 
的 PolicyGradient 类 的 实例 。 




















env = gym.make(ENV_ID) .unwrapped 
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通过 设置 随机 种 子 ， 可 以 复 现 一 些 运行 情况 

np.random. seed (RANDOM_SEED) 
tf.random.set seed(RANDOM SEED) 
env.seed(RANDOM SEED) 
agent - PolicyGradient( 

action num-env.action space.n, 

state dim-env.observation space.shape[60], 
) 
tO = time.time() 




















在 训练 模式 中 ,我们 使 用 模型 输出 的 动作 来 和 环境 进行 交互 ， 之 后 存储 转移 数据 并 在 每 个 片 
段 更 新 策略 。 为 了 简化 代码 ， 智 能 体 将 在 每 局 结束 时 直接 进行 更 新 。 









































if args.train: 





all_episode_reward = [] 
for episode in range(TRAIN EPISODES): 
# 重 置 环境 





state = env.reset() 


episode. reward = 0 


for step in range(MAX STEPS): # 在 一 个 片段 中 
if RENDER: 





env. render () 
# 选择 动作 
action = agent.get_action(state) 
# 与 环境 交互 
next_state, reward, done, info = env.step(action) 
# 存储 转移 数据 


agent.store_transition(state, action, reward) 


state = next_state 
episode_reward += reward 
# 如 果 环 境 返 回 done 为 True， 则 跳出 循环 


if done: 








break 
# 在 每 局 游戏 结束 时 进行 更 新 


agent.learn() 





print ( 
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"Training | Episode: {}/{} | Episode Reward: {:.0£} | Running Time: 
{:.4£}’ . format ( 
episode + 1, TRAIN_EPISODES, episode_reward, 
time.time() - t0)) 


























我 们 可 以 在 每 局 游戏 结束 后 的 部 分 增加 一 些 代码 ， 以 便 更 好 地 显示 训练 过 程 。 我 们 显示 每 个 
回合 的 总 奖励 和 通过 滑动 平均 计算 的 运行 奖励 。 之 后 可 以 绘制 运行 奖励 以 便 更 好 地 观察 训练 趋 
势 。 最 后 ， 存 储 训练 好 的 模型 












































agent.save() 

plt.plot(all episode reward) 

if not os.path.exists('image'): 
os.makedirs(’ image’ ) 


plt.savefig(os.path.join('image', 'pg.png')) 


















































如 果 我 们 使 用 测试 模式 ， 则 过 程 更 为 简单 ， 只 需要 载 入 预 训练 的 模型 ， 再 用 它 和 环境 进行 交 
互 即 可 。 

















if args.test: 
# 进行 测试 
agent.load() 
for episode in range(TEST EPISODES): 
state = env.reset() 
episode. reward = 0 
for step in range(MAX STEPS): 
env.render() 
State, reward, done, info - env.step(agent.get action(state, True)) 
episode reward += reward 
if done: 
break 
print(C 
"Testing | Episode: {}/{} | Episode Reward: {:.0f} | Running Time: 
{:.4£}’ . format ( 
episode + 1, TEST_EPISODES, episode_reward, 
time.time() - t0)) 
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5.10.3 AC: CartPole-V0 




















Actor-Critic 算法 通过 TD 方法 计算 基准 ， 能 在 每 次 和 环境 交互 后 立刻 更 新 策略 ， 和 MC 非常 
不 同 o 
在 Actor-Critic 算法 中 ， 我 们 建立 了 2 个 类 : Actor 和 Critic， 其 结构 如 下 所 示 。 




















class Actor(object): 
def __init__(self, state dim, action num, 1r=0.001): £ 类 初始 化 。 创 建 模 型 、 优 化 器 及 其 
# 所 需 变量 




















def learn(self, state, action, td error): # 更 新 模型 
E UE state, greedy-False): 4 通过 概率 分 布 或 者 贪心 方法 选择 动作 
def 村 # 存储 训练 模型 
def load(sel#): # 载 入 训练 模型 
class Critic(object): 
def __init_(self, state dim, lr-8.91): 4 类 初始 化 。 创 建 模型 、 优 化 器 及 其 所 需 变量 
n state, reward, state ): £ 更 新 模型 
def asd # 存储 训练 模型 


def load(self): # 载 入 训练 模型 























Actor 类 的 部 分 和 策略 梯度 算法 很 像 。 唯 一 的 区 别 是 learn() 函数 使 用 了 TD 误差 作为 优 
势 估 计 值 进行 更 新 ， 而 不 是 使 用 折扣 化 奖励 。 




































































def learn(self, state, action, td_error): 
with tf.GradientTape() as tape: 
_logits = self.model(np.array([state])) 


_exp_v = tl.rein.cross entropy. reward loss(logits- logits, actions=[action], 





rewards-td error[9]) 
grad - tape.gradient( exp v, self.model.trainable weights) 


self.optimizer.apply gradients(zip(grad, self.model.trainable weights)) 
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return _exp_v 





























和 PG 算法 不 同 ，AC 算法 有 一 个 带 有 价值 网 络 的 批判 者 ， 它 能 估计 每 个 状态 的 价值 。 所 以 











它 初 始 化 函数 十 分 清晰 ， 只 需要 创建 网 络 和 优化 器 即 可 。 





class Critic(object): 


def | init | (self, state dim, lr=0.01): 


input layer - tl.layers.Input([1, state dim], name-'state') 
layer = tl.layers.Dense( 
n units-30, act-tf.nn.relu6, W init-tf.random uniform initializer(80, 0.01), 
name-'hidden' 
) (input. layer) 
layer - tl.layers.Dense(n units-1, act-None, name-'value')(layer) 
self.model = tl.models.Model(inputs-input layer, outputs-layer, name="Critic") 


self.model.train() 


self.optimizer - tf.optimizers.Adam(lr) 





BUA 

















在 初始 化 函数 之 后 ， 我 们 有 了 一 个 价值 网 络 。 下 一 步 就 是 建立 learnO Mie. learnO K 
F 务 非常 简单 ， 通 过 公式 6 = R+7V(s') — V(s) 计算 TD 误差 6， 之 后 将 TD 误差 作为 优势 估 



































计 来 计算 损失 。 





def learn(self, state, reward, state_, done): 


d = 8 if done else 1 
v. = self.model(np.array([state ])) 
with tf.GradientTape() as tape: 
v = self.model(np.array([state])) 
# TD error = r + d * lambda * V(newS) - V(S) 
td error = reward + d * LAM * v - v 
loss - tf.square(td error) 
grad - tape.gradient(loss, self.model.trainable weights) 
self.optimizer.apply. gradients(zip(grad, self.model.trainable weights)) 


return td error 





存储 和 载 入 函数 与 往常 一 样 。 我 们 也 可 以 将 网 络 参数 存储 为 .npz 格式 的 文件 。 











def save(self): # 存储 模型 
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if not os.path.exists(os.path.join(’model’, 'ac')): 


os.makedirs(os.path.join(’model’, 'ac')) 


5.10 策略 梯度 代码 例子 





tl.files.save_npz(self.model.trainable_weights, name=os.path.join(’model’, ’ac’ 


'model critic.npz')) 


def load(self): # 载 入 模型 
tl.files.load and assign npz(name-os.path.join('model', ’ac’, 


'model critic.npz'), network-self.model) 























IT 











训练 循环 的 代码 和 之 前 的 代码 非常 相似 。 唯 一 的 不 同 是 更 新 的 时 机 不 同 。 使 用 TD TRAE 
况 下 ， 我 们 可 以 在 每 步 进行 更 新 。 


























if args.train: 
all_episode_reward = [] 
for episode in range(TRAIN. EPISODES): 
# 重 置 环境 
state = env.reset().astype(np.float32) 
step = 8 # 片段 中 的 步 数 
episode reward = 0 # 整个 片段 的 奖励 
while True: 
if RENDER: env.render() 
# 选择 动作 ， 并 与 环境 交互 


action = actor.get_action(state) 








state_new, reward, done, info = env.step(action) 


State new = state new.astype(np.float32) 


if done: reward = -20 # reward shaping trick 


episode_reward += reward 


# 在 和 环境 交互 后 ， 更 新 模型 
td_error = critic.learn(state, reward, state_new, done) 


actor.learn(state, action, td_error) 


state = state_new 


step += 1 


# 一 直 运 行 ， 直 到 环境 返回 done 为 True， 或 者 达到 最 大 步 数 限制 
if done or step >= MAX_STEPS: 





break 
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显示 信息 、 绘 图 和 测试 部 分 的 代码 和 策略 梯度 的 代码 一 样 ， 这 里 就 不 再 次 述 了 。 








5.10.4 A3C: BipedalWalker-v2 


















































在 这 里 的 A3C 实现 中 ， 有 个 全 局 的 AC 和 许多 Worker. 4/58 AC 的 功能 是 使 用 Worker 节点 
采集 的 数据 更 新 网 络 。 每 个 Worker 节点 都 有 自己 的 AC 网 络 ， 用 来 和 环境 交互 。Worker 节点 并 
将 采集 的 数据 传 给 全 局 AC， 之 后 从 全 局 AC 获取 最 新 的 网 络 参 数 ， 再 蔡 换 自己 本 地 的 参数 并 接 
着 采集 数据 。Worker 类 的 结构 如 下 所 示 : 














































































































D 





class Worker(object): 
def | init. (self, name): # 初始 化 





def work(self, globalAC): # 主要 的 功能 函数 








如 上 所 说 , BES Worker 节点 都 有 自己 的 行动 者 网 络 和 批判 者 网 络 。 所 以 在 初始 化 函数 ! 
们 通过 实例 化 ACNet 类 来 创建 模型 。 














x 












































class Worker(object): 
def | init | (self, name): 
self.env - gym.make(GAME) 
self.name - name 
self.AC = ACNet (name) 




















work() 函数 是 Worker 类 的 主要 函数 。 它 和 之 前 代码 中 的 主 循环 相似 ， 但 在 更 新 的 地 方 有 
所 不 同 。 和 往常 一 样 ， 这 里 循环 的 主要 内 容 是 从 智能 体 取得 动作 ， 并 与 环境 交互 。 



































def work(self, globalAC): 
global GLOBAL_RUNNING_R, GLOBAL_EP 
total_step = 1 
buffer s, buffer a, buffer_r = [], OD, [] 


while not COORD.should stop() and GLOBAL EP « MAX GLOBAL EP: 


# 重 置 环境 


S = self.env.reset() 





ep_r = 9 


while True: 
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# 在 训练 过 程 中 ， 将 WorkerO 可 视 化 


if self.name == ’Worker_0’ and total step 





self.env.render() 


# 选择 动作 并 与 环境 交互 
s.astype(’ float32’) 





S 


a self.AC.choose action(s) 
s_, r, done, _info = self.env.step(a) 


S_ = S. .astype(' float32’) 


# 将 机 器 人 摔 倒 的 奖励 设置 为 -2， 代 替 原来 的 -100 
if r == -100: r = -2 


ep r4-r 


# 存储 转移 数据 

buffer_s.append(s) 
buffer_a.append(a) 
buffer_r.append(r) 





























更 新 后 的 最 新 全 局 网 络 参数 。 








当 智能 体 采集 足够 的 数据 时 ， 将 开始 更 新 全 局 网 络 。 在 那 之 后 ， 本 地 网 络 的 参数 将 被 蔡 换 为 





if total_step 
if done: 
= 0 # 终止 情况 下 


else: 


v_s_ = self.AC.critic(s [np.newaxis, :])[0,0] # 修正 数据 维度 


# 折扣 化 奖励 
buffer_v_target = [] 
for r in buffer_r[::-1]: 
V.S. = r + GAMMA * v_s_ 
buffer_v_target.append(v_s_) 
buffer_v_target.reverse() 
buffer s = tf.convert to tensor(np.vstack(buffer s)) 


buffer a - tf.convert to tensor(np.vstack(buffer a)) 


buffer v target = tf.convert. to tensor(np.vstack(buffer. v target).astype('f1oat32')) 
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# 更 新 全 局 网 络 

self.AC.update global(buffer s, buffer a, buffer_v_target.astype(’ float32’), 
globalAC) 

buffer s, buffer a, buffer r = [], OD, [] 


# 同步 本 地 网 络 
self.AC.pull. global(globalAC) 
$ =S 
total_step += 1 
if done: 
if len(GLOBAL RUNNING R) == 0: 4 存储 运行 这 程 中 的 奖励 
GLOBAL_RUNNING_R. append(ep_r) 
else: # 使 用 滑动 平均 
GLOBAL RUNNING R.append(60.95 * GLOBAL RUNNING R[-1] + 0.05 * ep r) 





print('Training | {}, Episode: {}/{} | Episode Reward: {:.4f} | Running Time: 
(:.4£1'N 

.format(self.name, GLOBAL EP, MAX GLOBAL EP, ep r, time.time()-TO )) 

GLOBAL EP += 1 

break 














在 上 述 代 码 中 用 到 的 ACNet 类 包含 行动 者 和 批判 者 。 它 的 结构 如 下 所 示 : 





class ACNet(object): 
def | init. (self, scope): # 初始 化 


def update global(self, buffer s, buffer a, buffer v target, globalAC): 
# 更 新 全 局 网 络 





def pull global(self, globalAC): # 本 地 网 络 同步 全 局 网 络 
def get action(self, s, greedy-False): # 本 地 网 络 采集 动作 
def save(self): # 存储 训练 模型 


def load(self): # 载 入 训练 模型 
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update_global() 函数 是 来 
计算 梯度 ， 但 是 将 梯度 应 用 到 全 局 网 络 ， 在 那 之 后 ， 再 从 全 局 网 络 更 新 数据 ， 并 继续 循环 。 在 这 











IT 























中 最 重要 的 函数 之 一 ， 从 如 下 代码 可 以 看 出 ,人 











rl 
z 
人 
%4 
KI 
dE 
Tr 
E 
IH 
















































































个 模式 下 ， 可 以 异步 更 新 多 个 Worker 节点 。 








def update_global( 


): 


self, buffer s, buffer a, buffer v target, globalAC 


# 通过 采样 更 新 全 局 AC m 
# 更 新 全 局 批判 者 


with tf.GradientTape() as tape: 


self.v = self.critic(buffer_s) 
self.v_target = buffer_v_target 
td = tf.subtract(self.v target, self.v, name=’TD_error’) 


self.c loss = tf.reduce mean(tf.square(td)) 


self.c. grads = tape.gradient(self.c loss, self.critic.trainable weights) 


OPT. C.apply. gradients(zip(self.c. grads, globalAC.critic.trainable weights)) 


# 将 本 地 梯度 应 用 在 全 局 网 络 上 


# 更 新 全 局 行动 者 
with tf.GradientTape() as tape: 


self.mu, self.sigma = self.actor(buffer_s) 
self.test = self.sigma[0] 
self.mu, self.sigma = self.mu * A BOUND[1], self.sigma + 1e-5 


normal dist = tfd.Normal(self.mu, self.sigma) £ tf2.0 中 没有 tf.contrib 
self.a his - buffer a 





log. prob = normal dist.log. prob(self.a his) 

exp v = log prob * td # td 在 critic 用 过 了 ， 这 里 没有 梯度 
entropy = normal dist.entropyO) # 鼓励 探索 

self.exp v = ENTROPY BETA * entropy + exp v 





self.a loss - tf.reduce mean(-self.exp v) 


self.a. grads = tape.gradient(self.a loss, self.actor.trainable weights) 


OPT. A.apply. gradients(zip(self.a. grads, globalAC.actor.trainable weights)) 


# 将 本 地 梯度 应 用 在 全 局 网 络 上 


return self.test 4 返回 测试 用 数据 




















更 新 本 地 网 络 的 函数 非常 简单 ， 只 要 将 本 地 网 络 的 参数 蔡 换 为 全 局 网 络 的 参数 即 可 。 





def pull global(self, globalAC): # 本 地 运行 ， 从 全 局 网 络 同步 数据 
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for l p, g.p in zip(self.actor.trainable weights, 
globalAC.actor.trainable weights): 
l p.assign(g. p) 

for l p, g p in zip(self.critic.trainable weights, 
globalAC.critic.trainable. weights): 
l p.assign(g. p) 























最 后 ， 准 备 工 作 都 完成 后 ， 在 主 函 数 中 逐一 启动 各 个 线程 即 可 。 





























env = gym.make(GAME) 
N_S = env.observation_space.shape[0] 


N_A = env.action_space.shape[0] 


A_BOUND = [env.action_space.low, env.action_space.high] 
A_BOUND[9] = A_BOUND[0].reshape(1, N_A) 
A_BOUND[1] = A_BOUND[1].reshape(1, N_A) 
with tf.device("/cpu:0"): 
GLOBAL AC = ACNet(GLOBAL_NET_SCOPE) # 这 里 的 全 局 网 络 只 用 来 存储 参数 





TO = time.time() 
if args.train: 
with tf.device("/cpu:0"): 
OPT A = tf.optimizers.RMSprop(LR A, name-'RMSPropA') 
OPT C = tf.optimizers.RMSprop(LR C, name-'RMSPropC') 


workers - [] 
for i in range(N WORKERS): 
i name = "Worker 9i" %i # worker name 


workers.append(Worker(i. name, GLOBAL AC)) 
COORD = tf.train.Coordinator() 


# 启动 TF 线程 

worker_threads = [] 

for worker in workers: 
#t 


threading. Thread(target=worker.work) 
job = lambda: worker .work(GLOBAL_AC) 
t = threading. Thread(target=job) 
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t.start() 
worker threads.append(t) 
COORD. join(worker. threads) 


GLOBAL. AC.save() 

plt.plot(GLOBAL RUNNING. R) 

if not os.path.exists('image'): 
os.makedirs(’ image’) 


plt.savefig(os.path.join('image', 'a3c.png')) 





5.10.5 


TRPO 以 信赖 域 方法 使 用 在 KL 散 度 约 束 下 的 最 大 更 新 步 长 。 例 子 中 也 使 / 


TRPO: Pendulum-V0 






































了 通 ) 








优势 估计 











# (Generalized Advantage Estimator, GAE)。 我 们 先 看 一 下 GAE_Buffer 如 何 实现 。 





class GAE_Buffer: 
def | init (self, obs dim, act dim, size, gamma-0.99, lam=0.95): 4 初始 化 缓存 


def 


def 


def 


def 


def 


omen obs, act, rew, val, logp, mean, log std): # 存储 数据 
"A last val-8): # 通过 GAE-Lambda 计算 优势 估计 
_discount_cumsum(self, x, discount): # 机 选 折扣 化 累积 和 
EET t 查看 缓存 是 否 已 满 


get(self): 4 从 缓存 中 取出 数据 





我 们 在 初始 化 函数 中 建立 之 后 要 用 到 的 变量 。 

















i 








class GAE_Buffer: 


def 


__init__(self, obs dim, act dim, size, gamma=0.99, lam=0.95): 
self.obs_buf = np.zeros((size, obs dim), dtype-np.float32) 
self.act buf - np.zeros((size, act dim), dtype-np.float32) 
self.adv buf - np.zeros(size, dtype-np.float32) 

self.rew buf - np.zeros(size, dtype-np.float32) 

self.ret buf - np.zeros(size, dtype-np.float32) 
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self.val buf - np.zeros(size, dtype-np.float32) 
self.logp buf - np.zeros(size, dtype-np.float32) 
self.mean buf - np.zeros(size, dtype-np.float32) 
self.log std buf - np.zeros(size, dtype-np.float32) 
self.gamma, self.lam - gamma, lam 


self.ptr, self.path start idx, self.max size = 0, 9, size 














在 storeO 函数 中 ， 我 们 将 数据 存 入 对 应 的 缓存 中 ， 再 移动 指针 。 











def store(self, obs, act, rew, val, logp, mean, log_std): 
assert self.ptr < self.max size # 确保 有 存储 空间 
self.obs buf[self.ptr] - obs 
self.act buf[self.ptr] 
self.rew buf[self.ptr] 
self.val buf[self.ptr] - val 
self.logp buf[self.ptr] - logp 


I 
w 
no 
ct 


I 
H 
oO 
= 


self.mean_buf[self.ptr] = mean 
self.log_std_buf[self.ptr] = log_std 
self.ptr += 1 





























finish pathO 函数 在 每 个 轨迹 的 结尾 或 者 一 个 回合 结束 时 会 被 
算 GAE-Lambda 优势 和 价值 函数 会 用 到 的 累积 回报 。 


ae 


j。 它 提取 当前 轨迹 并 计 
































def finish_path(self, last_val=0): 
path_slice = slice(self.path_start_idx, self.ptr) 
rews = np.append(self.rew_buf[path_slice], last_val) 
vals = np.append(self.val_buf[path_slice], last_val) 
# 下 面 两 行 计算 了 GAE-Lambda 优势 


deltas = rews[:-1] + self.gamma * vals[1:] - vals[:-1] 














self.adv buf[path slice] = self. discount. cumsum(deltas, self.gamma * self.lam) 


# 下 一 行 计算 了 折扣 化 奖励 ， 它 将 作为 价值 函数 的 目标 


self.ret buf[path slice] = self. discount cumsum(rews, self.gamma)[:-1] 


self.path start idx - self.ptr 





























在 之 前 代码 中 用 到 的 | discount. cumsumO 函数 如 下 所 示 。 这 里 使 用 了 scipy《〈 一 个 开源 库 ) 
的 内 建 函 数 来 实现 。 
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def _discount_cumsum(self, x, discount): 
return scipy.signal.lfilter([1], [1, float(-discount)], x[::-1], axis=0)[::-1] 








is fullO 函数 只 是 简单 确认 一 下 指针 是 否 移动 到 底 。 





def is_full(self): 


return self.ptr == self.max_size 
































当 缓存 满 了 的 时 候 ， 我 们 将 取出 数据 并 重 置 指针 。 这 里 使 用 了 优势 标准 化 技术 。 























def get(self): 
assert self.ptr == self.max size # 取 数 据 之 前 ， 缓 存 必 须 是 满 的 
self.ptr, self.path_start_idx = 0, 0 


# 下 两 行 实现 的 是 优势 标准 化 技术 

adv_mean, adv_std = np.mean(self.adv_buf), np.std(self.adv_buf) 

self.adv_buf = (self.adv_buf - adv_mean) / adv_std 

return [self.obs_buf, self.act_buf, self.adv_buf, self.ret_buf, self.logp_buf, 
self.mean_buf, self.log_std_buf] 








接 下 来 我 们 将 介绍 TRP0， 其 结构 如 下 所 示 : 





class TRPO: 
def | init. (self, state dim, action dim, action bound): # 创建 网 络 、 优 化 器 及 变量 














def ee state, greedy-False): # 获取 动作 和 其 他 变量 

def a states, actions, adv, old_log_prob): # 计算 策略 损失 

def ee states, actions, adv, old_log_prob): # 计算 策略 网 络 梯度 
def E states, rewards to go): # 训练 价值 网 络 


def kl(self, states, old mean, old log std): # 计算 KL WË 








def flat concat(self, xs): £ 展 平 变量 


def get pi params(self): # 获取 策略 网 络 的 参数 
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def set pi params(self, flat params): £ 设置 策略 网 络 的 参数 


def save(self): # 存储 网 络 参数 





def load(self): # 载 入 网 络 参 数 














def cg(self, Ax, b): # #47 E REX 


def hvp(self, states, old mean, old log std, x): £ Hessian 向 量 积 (Hessian-vector 
product) 


def update(self): # 更 新 全 部 网 络 





def finish path(self, done, next state): # 结束 一 段 轨迹 





















































和 往常 一 样 ， 我 们 在 初始 化 函数 中 先 设置 网 络 、 优 化 器 和 其 他 变量 。 这 里 的 动作 分 布 是 由 
个 均值 和 一 个 标准 差 描述 的 高 斯 分 布 。 策 略 网 络 只 输出 了 每 个 动作 维度 的 均值 ， 所 有 动作 共用 
个 变量 来 作为 对 数 标准 差 。 


















































class TRPO: 
def __init__(self, state_dim, action_dim, action_bound): 
# critic 
with tf.name_scope(’ critic’): 
layer = input_layer = tl.layers.Input([None, state_dim], tf.float32) 
for d in HIDDEN_SIZES: 
layer = tl.layers.Dense(d, tf.nn.relu) (layer) 
v = tl.layers.Dense(1) (layer) 
self.critic = tl.models.Model(input_layer, v) 


self.critic.train() 


# actor 
with tf.name scope('actor'): 
layer - input layer - tl.layers.Input([None, state dim], tf.float32) 
for d in HIDDEN SIZES: 
layer - tl.layers.Dense(d, tf.nn.relu)(layer) 
mean = tl.layers.Dense(action dim, tf.nn.tanh) (layer) 
mean = tl.layers.Lambda(lambda x: x * action_bound) (mean) 


log std = tf.Variable(np.zeros(action dim, dtype-np.float32)) 
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self.actor = tl.models.Model(input layer, mean) 
self.actor.trainable weights.append(log. std) 
self.actor.log. std = log. std 


self.actor.train() 


self.buf - GAE Buffer(state dim, action dim, BATCH SIZE, GAMMA, LAM) 
self.critic optimizer - tf.optimizers.Adam(learning rate-VF LR) 


self.action bound - action bound 








有 了 网 络 ， 我 们 就 可 以 通过 如 下 函数 取得 对 应 状态 下 的 动作 。 除 此 之 外 ， 我 们 需要 计算 一 些 
额外 数据 存 入 GAE 缓存 中 。 





def get_action(self, state, greedy=False): 
state = np.array([state], np.float32) 
mean = self.actor(state) 
log std = tf.convert_to_tensor(self.actor.log_std) 
std = tf.exp(log_std) 
std = tf.ones like(mean) * std 


pi = tfp.distributions.Normal(mean, std) 


if greedy: 
action = mean 
else: 
action = pi.sample() 
action = np.clip(action, -self.action_bound, self.action_bound) 


logp_pi = pi.log_prob(action) 


value = self.critic(state) 


return action[0], value, logp_pi, mean, log_std 








如 下 代码 显示 了 如 何 计算 策略 损失 。 我 们 先 计 算 蔡 代 优势 ， 这 是 一 个 描述 当前 策略 在 之 前 策 
略 采 样 的 数据 中 表现 如 何 的 数据 。 之 后 使 用 负 的 蔡 代 优 势 作为 子 策略 损失 。 





























def pi_loss(self, states, actions, adv, old_log_prob): 
mean = self.actor(states) 
pi = tfp.distributions.Normal(mean, tf.exp(self.actor.log_std)) 
log_prob = pi.log_prob(actions)[:, 0] 
ratio = tf.exp(log_prob - old_log_prob) 
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surr = tf.reduce_mean(ratio * adv) 


return -surr 


























i ad FZ HE XU pi_lossQ) 函数 ， 我 们 可 以 很 简单 地 计算 梯度 。 




















def gradient(self, states, actions, adv, old_log_prob): 
pi_params = self.actor.trainable_weights 
with tf.GradientTape() as tape: 
loss = self.pi_loss(states, actions, adv, old_log_prob) 
grad = tape.gradient(loss, pi_params) 
gradient = self._flat_concat (grad) 


return gradient, loss 





























训练 价值 网 络 的 方法 如 下 所 示 。 只 要 通过 回归 减少 均 方差 即 可 拟 合 价 但 








ER 
E 




















def train vf(self, states, rewards. to go): 
with tf.GradientTape() as tape: 
value - self.critic(states) 
loss = tf.reduce mean((rewards. to go - value[:, 0]) ** 2) 
grad - tape.gradient(loss, self.critic.trainable weights) 


self.critic optimizer.apply. gradients(zip(grad, self.critic.trainable weights)) 




















计算 KL 散 度 的 过 程 如 下 所 示 。 我 们 先 基于 均值 和 标准 差 产生 动作 分 布 ， 然 后 计算 两 个 分 布 
的 KL BUS. 




















def kl(self, states, old mean, old_log_std): 
old_mean = old_mean[:, np.newaxis] 
old_log_std = old_log_std[:, np.newaxis] 
old_std = tf.exp(old_log_std) 
old pi = tfp.distributions.Normal(old mean, old std) 


mean = self.actor(states) 
std = tf.exp(self.actor.log std)*tf.ones like(mean) 


pi = tfp.distributions.Normal(mean, std) 


kl - tfp.distributions.kl divergence(pi, old pi) 
all kls - tf.reduce sum(kl, axis-1) 


return tf.reduce mean(all kls) 
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在 这 个 代码 例子 中 , 许多 参数 都 使 用 




















_flat_concat() 函数 展 平 , 这 样 能 简化 很 多 计算 过 程 


Eo 








def _flat_concat(self, xs): 





return tf.concat([tf.reshape(x, (-1,)) for x in xs], axis=0) 











如 下 的 get_pi_params() 和 set_pi_params() 函数 
获取 和 设置 参数 的 过 程 中 需要 进行 一 些 简单 的 处 到 















































于 获得 和 设置 行动 者 网 络 的 参数 。 在 


on Bi 




















T 


Es 





def get_pi_params(self): 


pi_params = self.actor.trainable_weights 


return self. flat concat(pi. params) 


def set pi params(self, flat params): 


pi params = self.actor.trainable weights 


for scalars 
splits - 


flat size = lambda p: int(np.prod(p.shape.as_listQ))) # the 'int' is important 


tf.split(flat params, [flat size(p) for p in pi params]) 


new params - [tf.reshape(p new, p.shape) for p, p new in zip(pi params, splits)] 


return tf.group([p.assign(p. new) for p, p. new in zip(pi params, new params)]) 





存储 和 载 入 函数 和 之 前 一 样 。 





def save(self): 


path = os.path.join(’model’, 'trpo') 
if not os.path.exists(path): 


os.makedirs (path) 


tl.files.save weights. to hdf5(os.path. join(path, 


'actor.hdf5'), self.actor) 
tl.files.save weights to hdf5(os.path.join(path, 


'critic.hdf5'), self.critic) 
def load(self): 


path = os.path.join(’model’, 'trpo') 


tl.files.load hdf5. to weights. in order(os.path.join(path, 'actor.hdf5'), 
self.actor) 








tl.files.load hdf5 to weights. in order(os.path.join(path, 'critic.hdf5'), 
self.critic) 








UR RS SCHR TE FE BE BE GC R BUT ULIS 
SFE BY [A] BEAR o 









































过 计算 和 存储 整个 矩阵 来 直接 计 





























7 链接 见 读者 服务 
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def cg(self, Ax, b): 
x - np.zeros like(b) 
r = copy.deepcopy(b) £ 注意 ， 这 里 应 该 是 ?b - AxQO', (2 x=0 时 ，Ax(Cx)=9。 如 果 想 热 局 
# 动 可 以 进行 修改 
p = copy.deepcopy (r) 
r dot old - np.dot(r, r) 
for . in range(CG ITERS): 
z = Ax(p) 
alpha = r_dot_old / (np.dot(p, z) + EPS) 
x += alpha * p 














r -= alpha * z 


r_dot_new = np.dot(r, r) 





p = r+ (r dot new / r dot old) * p 


r dot old - r dot new 





return x 











如 下 代码 显示 了 通过 使 用 公式 Hz = Vo ((VoDicx(6llOx))” x) 计算 Hessian 向 量 积 的 过 程 。 
这 里 使 用 阻尼 系数 来 改变 计算 Hae 一 (o1 + H)s 的 过 程 ， 可 以 获得 更 好 的 数值 稳定 性 。 









































def hvp(self, states, old_mean, old_log_std, x): 
pi_params = self.actor.trainable_weights 
with tf.GradientTapeQ as tapel: 
with tf.GradientTape() as tapeQ: 
d kl = self.kl(states, old mean, old log. std) 
g = self. flat concat(tapeO.gradient(d kl, pi params)) 
1 = tf.reduce sum(g * x) 


hvp = self. flat concat(tapel.gradient(l, pi params)) 


if DAMPING COEFF » 6: 
hvp += DAMPING COEFF * x 


return hvp 
































有 了 如 上 准备 我们 最 后 可 以 开始 更 新 了 。 首先, 通过 GAB 采集 数据 并 计算 梯度 和 损失 。 接 
着 我 们 使 用 共 思 梯 度 算法 来 计算 变量 z， 它 对 应 公式 doe e ÉL is 中 的 次 。 然 后 ， 我 们 计算 公 
R Oeri = Op +) (PE ay 中 的 [228 — 部 分 。 之 后 ， 我 们 使 用 回 湖 线 搜索 来 更 新 策略 网 
络 。 最 后 ， 通 过 MES 损失 更 新 价值 网 络 。 




















































































































def update(self): 
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states, actions, adv, rewards_to_go, logp_old_ph, old mu, old_log_std = 
self. buf.getQ 
g, pi_l_old = self.gradient(states, actions, adv, logp_old_ph) 





Hx = lambda x: self.hvp(states, old_mu, old_log_std, x) 
x = self.cg(Hx, g) 


alpha = np.sqrt(2 * DELTA / (np.dot(x, Hx(x)) + EPS)) 


old_params = self.get_pi_params() 


def set_and_eval(step): 
params = old_params - alpha * x * step 
self.set_pi_params (params) 
d kl = self.kl(states, old mu, old log. std) 


loss - self.pi loss(states, actions, adv, logp old ph) 


l 


return [d_kl, loss] 


# 回溯 线 搜索 ， 固 定 KL 限制 
for j in range(BACKTRACK ITERS): 
kl, pi l new - set. and eval(step-BACKTRACK COEFF ** j) 
if kl <= DELTA and pi l new <= pi. l old: 
# 接受 一 步 线 搜索 中 更 新 的 新 参数 


break 











else: 
# 线 搜索 失败 ， 保 持 旧 参数 


set and eval(step-0.) 


# 价值 网 络 更 新 
for _ in range(TRAIN_V_ITERS) : 


self.train_vf(states, rewards_to_go) 








— 























a 








这 里 在 轨迹 要 被 切断 或 者 回合 结束 的 时 候 ， 也 会 需要 使 用 finish pathO 函数 。 如 
于 智能 体 到 达 终 止 状态 而 结束 ， 那 么 最 后 的 价值 将 被 设置 为 0。 

































































E 
ZR 














轨迹 





def finish path(self, done, next_state): 
if not done: 
next_state = np.array([next_state], np.float32) 


last_val = self.critic(next_state) 
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else: 
last_val = 0 
self.buf.finish_path(last_val) 








代码 的 主 循环 如 下 所 示 。 我 们 先 创建 环 


, 


e 
A H 




















BS A — E Ji T 


Yn 


上 的 变量 。 























env = gym.make(ENV ID).unwrapped 


# 设置 随机 种 子 以 便 复 现 效果 
np.random.seed(RANDOM SEED) 
tf.random.set seed(RANDOM SEED) 
env.seed(RANDOM SEED) 


state dim - env.observation space.shape 


action dim env.action_space.shape[0] 


action_bound = env.action_space.high 


[0] 


agent = TRPO(state_dim, action_dim, action_bound) 


tO = time.time() 








E 


更 新 





o 


在 训练 模式 下 ， 我 们 将 智能 体 与 环境 产生 的 交互 数 





四 存 入 缓存 ， 当 缓存 满 了 的 时 候 则 进行 一 
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if args.train: # train 


all_episode_reward = [] 


for episode in range(TRAIN EPISODES): 


state env.reset() 


state 

episode. reward = 0 

for step in range(MAX STEPS): 
if RENDER: 


env.render() 


np.array(state, np.float32) 


action, value, logp, mean, log std - agent.get action(state) 


next state, reward, done, _ = env.step(action) 


next state 


np.array(next state, np.float32) 


agent.buf.store(state, action, reward, value, logp, mean, log std) 


episode reward += reward 


state next state 


if agent.buf.is fullO: 


5.10 策略 梯度 代码 例子 





agent.finish_path(done, next_state) 
agent .update() 
if done: 
break 
agent.finish_path(done, next_state) 
if episode == 0: 
all episode reward.append(episode. reward) 
else: 
all episode reward.append(all episode reward[-1] * 0.9 + episode reward * 
0.1) 
print ( 
'Training | Episode: {}/{} | Episode Reward: {:.4£} | Running Time: 
{:.4£}’ . format ( 
episode+1, TRAIN_EPISODES, episode_reward, 
time.time() - tO 


) 
if episode 
agent.save() 


agent.save() 











接着 我 们 可 以 增加 一 些 绘图 的 代码 ， 以 便于 观察 训练 过 程 。 





plt.plot(all episode reward) 
if not os.path.exists('image'): 
os.makedirs(’ image’) 


plt.savefig(os.path.join('image', 'trpo.png')) 





当 训练 完成 后 ， 我 们 可 以 开始 测试 。 











if args.test: 

# test 

agent.load() 

for episode in range(TEST_EPISODES): 
state - env.reset() 
episode. reward = 0 
for step in range(MAX STEPS): 

env.render() 


x 


action, *  - agent.get action(state, greedy-True) 
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state, reward, done, info = env.step(action) 

episode_reward += reward 

if done: 
break 

print( 

*Testing | Episode: {}/{} | Episode Reward: {:.4f} | Running Time: 
{:.4£}’ . format ( 
episode + 1, TEST_EPISODES, episode_reward, 
time.time() - t0)) 





5.10.6 PPO: Pendulum-V0 





PPO 是 一 种 一 阶 方法 ， 与 TRPO 这 样 的 二 阶 算法 不 同 。 
在 PPO-Penalty 中 ， 是 通过 给 目标 函数 增加 一 个 KL 散 度 惩 罚 项 的 ， 以 解决 像 TRPO 这 样 带 
KL 约束 的 更 新 间 题 。PP0 类 的 结构 如 下 所 示 : 








d 











class PPO(object): 
def | init (self, state dim, action dim, action bound, method=’clip’): £ 初始 化 


def train actor(self, state, action, adv, old pi): # 行动 者 训练 函数 


def train critic(self, reward, state): 4 批判 者 训练 函数 





def update(self): # 主 更 新 函数 
def get action(self, s, greedy-False): # 选择 动作 


def save(self): # 存储 网 络 





def load(self): # RAMA 
def store transition(self, state, action, reward): # 存储 每 步 的 状态 、 动 作 、 奖 励 


def finish path(self, next state): # 计算 累积 奖励 


























在 PPO 算法 中 , 我 们 在 初始 化 函数 中 建立 行动 者 网 络 和 批判 者 网 络 。PPO 有 两 种 方法 : PPO- 
Penalty 和 PPO-Clip。 我们 在 选用 不 同 的 方法 时 , 要 设置 其 相对 应 的 参数 。 由 于 环境 是 一 个 连续 运 
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动 控制 环境 ， 我 们 可 以 使 用 随机 策略 网 络 输出 均值 和 对 数 标 准 差 来 描述 动作 分 布 。 另 外 ， 我 们 在 
网 络 输出 加 了 一 个 lambda 层 将 均值 乘 以 2， 这 是 由 于 "Pendulum-V0' 环境 中 的 动作 范围 是 [—2, 2]. 















































ut 














class PPO(object): 
def | init (self, state dim, action dim, action bound, method-'clip'): 

# Critic 

with tf.name scope('critic'): 
inputs = tl.layers.Input([None, state dim], tf.float32, ’state’) 
layer - tl.layers.Dense(64, tf.nn.relu)(inputs) 
layer - tl.layers.Dense(64, tf.nn.relu)(layer) 
v = tl.layers.Dense(1) (layer) 

self.critic - tl.models.Model(inputs, v) 


self.critic.trainQ 


# Actor 
with tf.name_scope(’ actor’): 
inputs = tl.layers.Input([None, state dim], tf.float32, ’state’) 
layer - tl.layers.Dense(64, tf.nn.relu)(inputs) 
layer - tl.layers.Dense(64, tf.nn.relu)(layer) 
a = tl.layers.Dense(action dim, tf.nn.tanh)(layer) 
mean = tl.layers.Lambda(lambda x: x * action bound, name=’ lambda’) (a) 
logstd - tf.Variable(np.zeros(action dim, dtype-np.float32)) 
self.actor - tl.models.Model(inputs, mean) 
self.actor.trainable weights.append(logstd) 
self.actor.logstd - logstd 
self.actor.train() 
self.actor opt - tf.optimizers.Adam(LR A) 
self.critic opt - tf.optimizers.Adam(LR C) 


self.method - method 

if method == 'penalty': 
self.kl target - KL TARGET 
self.lam - LAM 

elif method -- 'clip': 
self.epsilon - EPSILON 


self.state buffer, self.action buffer - [], [] 


self.reward buffer, self.cumulative reward buffer - [], [] 
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self.action_bound = action_bound 















































train_actor() 函数 负责 使 用 PPO 方法 更 新 行动 者 。PPO 使 用 特定 的 目标 函数 来 防止 新 策 
略 远离 旧 策 略 。 




















def train_actor(self, state, action, adv, old_pi): 
with tf.GradientTape() as tape: 
mean, std - self.actor(state), tf.exp(self.actor.logstd) 


pi = tfp.distributions.Normal(mean, std) 


ratio = tf.exp(pi.log prob(action) - old pi.log prob(action)) 
surr - ratio * adv 


if self.method -- 'penalty': £ ppo penalty 

kl - tfp.distributions.kl divergence(old pi, pi) 

kl mean = tf.reduce mean(kl) 

aloss = -(tf.reduce mean(surr - self.lam * kl)) 
else: £ ppo clip 

aloss = -tf.reduce_mean( 

tf.minimum(surr, 
tf.clip by value(ratio, 1. - self.epsilon, 1. + self.epsilon) 
* adv) 
) 
a gard - tape.gradient(aloss, self.actor.trainable weights) 


self.actor opt.apply. gradients(zip(a gard, self.actor.trainable weights)) 


if self.method -- 'kl pen': 


return kl mean 











train critic 函数 负责 对 批判 者 进行 更 新 ， 代 码 如 下 所 示 。 过 程 就 是 计算 优势 并 最 小 化 
损失 ,42 。 











def train_critic(self, reward, state): 
reward = np.array(reward, dtype-np.float32) 
with tf.GradientTape() as tape: 
advantage = reward - self.critic(state) 
loss = tf.reduce_mean(tf.square (advantage) ) 
grad = tape.gradient(loss, self.critic.trainable_weights) 


self.critic_opt.apply_gradients(zip(grad, self.critic.trainable weights)) 
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在 update 函数 中 ,我 们 先 计 算 旧 策略 的 分 布 ,之 后 再 进行 更 新 。 如 果 














方法 ， 则 我 们 还 需要 在 更 新 行动 者 之 后 ， 根 据 KL 散 度 来 更 新 lambda fH. 




















我 们 使 用 PPO-Penalty 





def update(self): 


S = np.array(self.state buffer, np.float32) 

a - np.array(self.action buffer, np.float32) 

r - np.array(self.cumulative reward buffer, np.float32) 
mean, std - self.actor(s), tf.exp(self.actor.logstd) 

pi = tfp.distributions.Normal(mean, std) 


adv - r - self.critic(s) 


# update actor 
if self.method -- 'kl pen': 
for _ in range(A UPDATE STEPS): 
kl - self.a train(s, a, adv, pi) 
if kl « self.kl target / 1.5: 
self.lam /- 2 
elif kl » self.kl target * 1.5: 
self.lam *- 2 
else: 
for _ in range(A UPDATE STEPS): 


self.a train(s, a, adv, pi) 


# update critic 
for _ in range(C UPDATE STEPS): 


self.c train(r, s) 


self.state buffer.clear() 
self.action buffer.clear() 
self.cumulative reward buffer.clear() 


self.reward buffer.clear() 







































































get actionO 函数 就 是 简单 地 使 用 均值 和 标准 差 来 描述 动作 分 布 ， 























果 我 们 想 要 一 个 没有 探索 的 动作 ， 就 只 需要 输出 均值 即 可 。 








并 且 从 中 采样 动作 。 如 











def get_action(self, s, greedy=False): 


state = state[np.newaxis, :].astype(np.float32) 
mean, std = self.actor(state), tf.exp(self.actor.logstd) 
if greedy: 
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action = mean[0] 

else: 
pi = tfp.distributions.Normal(mean, std) 
action = tf.squeeze(pi.sample(1), axis=0) [0] 


return np.clip(action, -self.action_bound, self.action_bound) 























save(). loadO. store_transition() 函数 和 之 前 的 代码 类 似 ， 这 里 不 做 展开 。finish_ 
path() 函数 负责 在 游戏 结束 或 者 采集 好 了 一 批 数 据 的 时 候 计 算 累计 奖励 。 











def finish path(self, next_state, done): 
if done: 
Vv_s_=0 
else: 
v_s_ = self.critic(np.array([next_state], np.float32))[0, 0] 
discounted_r = [] 
for r in self.reward_buffer[::-1]: 
v_s_ = r + GAMMA * v_s_ 
discounted_r.append(v_s_) 
discounted_r.reverse() 
discounted_r = np.array(discounted_r)[:, np.newaxis] 
self.cumulative_reward_buffer.extend(discounted_r) 


self.reward_buffer.clear() 








主 函 数 也 和 之 前 的 十 分 相似 。 首 先 建立 环境 和 PPO 智能 体 。 








env = gym.make(ENV ID).unwrapped 


# 设置 随机 种 子 ， 可 以 更 好 地 复 现 效果 
env.seed(RANDOM SEED) 
np.random.seed(RANDOM SEED) 
tf.random.set seed(RANDOM SEED) 


state dim = env.observation_space.shape[0] 
action dim = env.action_space.shape[0] 


action. bound = env.action_space.high 


agent - PPO(state dim, action dim, action bound) 


tO = time.time() 
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接着 使 用 智能 体 和 环境 进行 交互 ， 并 存储 数据 。 在 游戏 结束 或 
finish pathO 函数 计算 累计 奖励 。 在 采集 好 一 批 数 据 时 更 新 智能 














后 ， 智 能 体 就 能 取得 很 好 的 分 数 了 。 


竹 收 集 足 够 的 数据 时 ， 执 行 

















本 。 在 经 历 过 很 多 次 学 习 之 





if args.train: 
all_episode_reward = [] 
for episode in range(TRAIN EPISODES): 
state - env.reset() 
episode. reward = 0 
for step in range(MAX STEPS): # 在 单个 片段 中 
if RENDER: 





env.render() 
action - agent.get action(state) 
state , reward, done, info - env.step(action) 
agent.store transition(state, action, reward) 
state = state. 


episode_reward += reward 





# 更 新 PPO 
if len(agent.state buffer) >= BATCH SIZE: 
agent.finish path(state , done) 
agent .update() 
if done: 
break 
agent.finish_path(state_, done) 
print ( 


'Training | Episode: {}/{} | Episode Reward: {:.4f} | Running Time: 


{:.4f}’ .format( 


episode + 1, TRAIN_EPISODES, episode_reward, time.time() - t0) 


) 
if episode == 0: 
all episode reward.append(episode. reward) 


else: 


all episode reward.append(all episode reward[-1] * 0.9 + episode reward * 


0.1) 


agent.save() 


plt.plot(all episode reward) 
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if not os.path.exists('image'): 
os.makedirs('image') 


plt.savefig(os.path.join('image', 'ppo.png')) 





最 后 ， 像 往常 一 样 测试 智能 体 。 














if args.test: 
agent.load() 
for episode in range(TEST EPISODES): 
state = env.reset() 
episode_reward = 0 
for step in range(MAX STEPS): 
env.render() 
State, reward, done, info - env.step(agent.get action(state, greedy-True)) 
episode reward += reward 
if done: 
break 
print( 
"Testing | Episode: {}/{} | Episode Reward: {:.4f} | Running Time: 
{:.4£}’ . format ( 
episode + 1, TEST_EPISODES, episode_reward, 
time.time() - t0)) 
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NE Q 网 络 和 Actor-Critic 


的 结合 








深度 Q 网 络 (Deep Q-Network, DQN) 算法 是 最 著名 的 深度 强化 学 习 算法 之 一 ， 将 强化 学 
习 与 深度 神经 网 络 相 结合 以 近似 最 优 动 作价 值 函数 ， 只 需 以 像素 值 作为 输入 就 在 绝 大 部 分 Atari 
游戏 中 达到 了 人 类 水 平 的 表现 。ActorCritic 方法 将 REINFORCE 算法 的 蒙特 卡 罗 更 新 方式 转化 


为 时 间 差 分 更 新 方式 ， 大 幅度 提高 了 采样 效率 。 近 年 来 ， 将 深度 Q 网 络 算法 与 ActorCritic 方法 
0 深度 确定 性 策略 梯度 (Deep Deterministic Policy Gradient, DDPG) $ 





相 结合 的 算法 愈加 流行 ， 包 




































































法 。 这 些 算法 结合 了 深度 Q 网 络 和 Actor-Critic 方法 的 优点 ， 在 大 多 数 环境 特别 是 连续 动作 空 











间 的 环境 ， 








表现 出 优越 的 怕 














能 。 本 章 先 简要 介绍 各 类 方法 的 优 缺 点 ， 然 后 介绍 一 些 将 深度 Q 网 


























络 和 Actor-Critic 方法 相 结合 的 经 典 算 法 ， 如 DDPG 算法 、 挛 生 延 迟 DDPG (Twin Delayed Deep 
Deterministic Policy Gradient, TD3) 算法 和 柔性 Actor-Critic (Soft Actor-Critic SAC) 算法 。 


6.1 


深度 Q 网 络 (Deep Q-Network, DQN) (Mnih et al., 2015) 算法 是 一 种 经 典 的 离线 策略 方法 。 
它 将 Q-Learning 算法 与 深度 神经 网 络 相 结合 ， 实 现 了 从 视觉 输入 到 决策 输出 的 端 到 端 学 习 。 该 
算法 仅 使 用 Atari 游戏 的 原始 像素 作为 输入 ， 便 在 几 十 款 游 戏 中 取得 了 人 类 水 平 级 的 表现 。 然 而 ， 
入 可 以 是 高 维 的 状态 空间 , 但 是 它 只 能 处 理 离 散 的 、 低 维 的 动作 空间 。 对 于 








虽然 深度 Q 网 络 的 输 


^ 
简介 

































































连续 的 、 高 维 的 动作 空间 ， 








Actor-Critic (AC) (Sutton et al., 2018) 方法 是 REINFORCE (Sutton et al., 2018) 算法 的 扩展 。 通 
过 引入 Critic， 该 方法 将 策略 梯度 算法 的 蒙特 卡 罗 更 新 转化 为 时 间 差 分 更 新 。 通 过 这 种 方式 ， 自 
举 法 〈Bootstrapping) 可 以 灵活 地 运用 到 值 估计 和 当 : 
































之 后 再 
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深度 Q 网 络 无 法 直接 计算 出 每 个 动作 对 应 的 Q 值 。 






























































忆 此 策略 的 更 新 不 需要 等 得 到 完整 的 轨迹 






























































进行 ， 即 不 需要 等 到 每 局 游戏 结束 。 虽 然 时 间 差 分 更 新 会 引入 一 些 估计 偏差 . 但 它 可 以 减 





6.2 深度 确 


定性 策略 梯度 算法 





少 估计 方差 从 而 加 快 学 习 速 度 。 尽 管 如 此 ， 原 始 的 Actor-Critic 方法 仍然 是 一 种 在 线 策略 的 算法 ， 
而 在 线 策略 方法 的 采样 效率 远 低 了 
将 深度 Q 网 络 与 Actor-Critic 相 
在 ，Actor-Critic 方法 转化 为 离线 策略 方法 ， 可 
回放 缓存 中 随机 采样 也 可 以 打 舌 
使 价值 函数 的 学 习 更 加 稳定 。ActorCritic 方法 使 得 我 们 可 以 通过 
或 连续 动作 空间 的 问题 ( 表 6.1)。 


FË 


深度 Q 网 络 很 难 解决 的 








ERLE. M 























结合 可 以 同 





离线 策略 方法 。 
时 利用 这 两 种 算法 的 优点 。 














以 使 用 
[数据 的 序列 关系 ， 最 小 化 样本 之 
网 络 学 习 策 























LAY ted 




















算法 


在 线 策略 /离线 策略 


回放 缓存 的 相 
































本 对 网 络 进 





























表 6.1 深度 Q 网 络 算法 与 Actor-Critic 算法 的 特点 


各 函数 Ts 便 于 处 理 





于 深度 Q 网 络 的 存 


行 训练 ， 从 而 提高 
闻 的 相关 性 ， 从 而 



































动作 空间 





深度 Q 网 络 


离线 策略 


离散 





Actor-Critic 


在 线 策略 





连续 








深度 Q 网 络 +Actor-Critic 





0.2 


深度 确定 性 策略 梯度 





离线 策略 


算法 








离散 和 连续 

















深度 确 














算法 (Silver et al., 2014) 和 深度 让 
中 的 扩展 。 它 可 以 解决 深度 Q 网 络 算法 无 法 直接 应 ) 
建立 QRZ (Critic) 和 策略 函数 (Actor)。Q (AMA (Critic) 与 深度 Q 网 络 算 
更 新 。 策 略 函 数 Actor) 利用 Q ERZ (Critic) 的 估计 ， 通 过 








梯度 算法 同时 









































策略 梯度 方法 进行 更 新 。 
在 深度 确定 性 策 
示 为 0”7。 每 个 动作 直接 


























法 相同 ， 通 过 时 间 差 分 方法 进行 





定性 策略 梯度 算法 可 以 看 作 是 确 
经 网 络 的 结合 ， 





























XE 




















略 梯度 算法 中 ，Actor 是 























这 里 ， 





















































个 确 





个 关键 问题 是 如 何平 衡 这 种 确定 性 策略 的 探索 和 利用 





定性 策略 函数 ， 表 示 为 x(s)， 待 学 习 参数 
ba 





























采样 。 





























生 策略 梯度 (Deterministic Policy Gradient, DPG) 
也 可 以 看 作 是 深度 Q 网 络 算法 在 连续 动作 空间 
于 连续 动作 空间 的 问题 。 





深度 确定 性 策略 





| 


ya 


(Exploration and Exploitation ). 





深度 确定 性 策略 梯度 算法 通过 在 训练 过 程 中 添加 随机 噪声 解决 该 问题 。 每 个 输出 动作 添加 噪声 


N， 此 时 
et al., 1930) 中 使 


N 



































O-U 过 程 满足 以 下 随机 微分 方程 ; 



































UR UL T TERI 





t 














有 动作 为 A, = n(S07) + Neo 
EH] Ornstein-Uhlenbeck ibf£ (O-U WE) 添加 噪声 项 。 











Hr 

















N 可 以 根据 























dX, = (n a Xj)dt + odWi, 











lL 体 任务 进行 选择 ， 原 论文 (Uhlenbeck 


(6.1) 


其 中 Xi 是 随机 变量 ，0 > 0, x,o > 0 为 参数 。Wi 是 维 纳 过 程 或 称 布朗 运动 (It et al., 1965), 
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。 入 是 独立 增 量 过 程 ,表示 对 于 时 间 轧 < Ty < … < Th, 有 随机 变量 Wr, Wr, Wm, ,Wi 一 

Wr, 都 是 独立 的 。 

。 对 于 任意 时 刻 t 和 增 量 At, A W(t+ AQ — W(t) ~ N(0,o2, At). 

e W, 是 关于 上 的 连续 函数 。 

我 们 知道 马尔 可 夫 决 策 过 程 是 基于 马尔 可 夫 性 质 的 ,满足 p(Xtri| Xo Xa) = p(X X) 
其 中 Xi 是 t 时 刻 的 随机 变量 ， 这 意味 着 随机 变量 Xi 的 时 间 相 关 性 只 取决 于 上 一 个 时 刻 的 随机 
变量 Xi M O-U 噪声 就 是 一 个 具有 时 间 相 关 性 的 随机 变量 ， 这 一 点 与 杞 尔 可 夫 决 策 过 程 的 性 
质 相 符 ， 因 此 很 自然 地 被 运用 到 随机 噪声 的 添加 中 。 然 而 ， 实 践 表 明 ， 时 间 不 相关 的 零 均 值 高 斯 
噪声 也 能 取得 很 好 的 效果 。 

回 到 深度 确定 性 策略 梯度 算法 ， 动 作价 值 函数 O(s, al) 和 深度 Q 网 络 算法 一 样 ， 通 过 贝尔 
FE (Bellman Equations) 进行 更 新 。 
在 状态 S, 下 ， 通 过 策略 r 执行 动作 Ay = (S467)， 得 到 下 一 个 状态 So 和 奖励 值 Ry R 
们 有 : 
















































































































































































































































































Q7 (St, At) = Elr(St, At) + YQ" (Se T(St+1))]- (6.2) 
然后 计算 Q 值 : 
Y; = Ri + YQ" (Sis, 4(Se41))- (6.3) 
使 用 梯度 下 降 算法 最 小 化 损失 函数 : 
L= Z Y (0 - QU A409)y. (6.4) 


1 
























































通过 将 链 式 法 则 应 用 于 期 望 回报 函数 J 来 更 新 策略 函数 r XE, J = ER, se Ais [Ru] 
CE RRI), Re = TL, VO r (Si, Aj). RNA: 
























































Vor J Es, ~pe [Vor Q(s, a|09)|. 5, a=0(5;|67)]> es 
=S ~p? [VaQ(s, a|8*)|.—s, a=1(3:)V 0, 7(8|9") |s=s, |. 
通过 批量 样本 (Batches) 的 方式 更 新 : 
1 
Vord & P. 2 VaQ(s,a|09)]...5, 4. (s; V07 (s|0")|s,. (6.6) 
此 外 ， 深 度 确 定性 策略 梯度 算法 采用 了 类 似 深度 Q 网 络 算法 的 目标 网 络 , 但 这 里 通过 指数 平 
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TH JT TEM A Ze ECBE EE RE BOR ET H Erk: 





(6.7) 
(6.8) 


















































算法 伪 代 码 详 见 算法 6.26. 


算法 6.26 DDPG 


于 参数 p < 1， 目 标 网 络 的 更 新 缓慢 且 平 稳 ， 这 种 方式 提高 了 学 习 的 稳定 性 。 














HER: 软 更 新 因子 p， 奖 励 折 扣 因 子 yo 





输入 : 回放 缓存 D， 初 始 化 critic 网 络 Q(s, a|09) 参数 02. actor 网 络 x(s|9") 参数 9"、 目 标 网 





络 Q's T. 

初始 化 H 标 网 络 参数 Q' fü a^, WME 09" — 62,07 — 97, 

for episode — 1, M do 
初始 化 随机 过 程 NN 用 于 给 动作 添加 探索 。 
































接收 初始 状态 Sy 。 
fort = 1, T do 


选择 动作 A, = n(5:07) + Ni. 
执行 动作 A 得 到 奖励 RR:， 转 移 到 下 一 状态 Suae 
存储 状态 转移 数据 对 (Se, At, Re, Di, Si41) 到 卫 。 
4 Y; = Ri + Y0 — DQ)Q'(Sca T (St41|67 ))09 ) 
通过 最 小 化 损 失 函 数 更 新 Critic 网 络 : 
L= Xy (V%i - Q(Si, Ail0®°))? 
通过 策略 梯度 的 方式 更 新 Actor 网 络 : 
Voed © BY; VaQ(s, al£9)Ls—s, aes) Vor (185, 
更 新 目标 网 络 : 
0% 4 p02 + (1 — p)09" 
OT «— pf" +(1— pe” 
end for 
end for 















































6.3  8SE^EUEjR DDPG 算法 





挛 生 延迟 DDPG (Twin Delayed Deep Deterministic Policy Gradient, TD3) 算法 是 深度 确定 性 


























策略 梯度 算法 的 改进 ， 其 中 运用 了 三 个 关键 技术 : 








(1) 截断 的 Double Q-Learning: 通过 学 习 两 个 Q@ 值 函数 ， 用 类 似 Double Q-Learning 的 方式 更 新 

















critic 网 络 。 









































(2) 延迟 策略 更 新 : 更 新 过 程 中 ， 策 略 网 络 的 更 新 频率 低 于 Q 值 网 络 。 











(3) 目标 策略 平滑 : 在 目标 策略 的 输出 动作 中 加 入 噪声 ， 以 此 平滑 























Q 值 函数 的 估计 ， 避 免 过 
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拟 合 。 
对 于 第 一 个 技术 ， 我 们 知道 在 深度 Q 网 络 算法 中 max 操作 会 导致 & 值 过 估计 的 问题 ， 这 个 
问题 同样 存在 于 深度 确定 性 策略 梯度 算法 中 ， 因 为 深度 确定 性 策略 梯度 算法 中 Q(s,a) 的 更 新 方 
式 与 深度 Q 网 络 算法 相同 : 


















































Q(s,a) © Rs + ymax Q(s', à). (6.9) 






































在 表格 学 习 方 法 (Tabular Methods) 中 不 存在 该 问题 ， 因 为 @ 值 是 精确 存储 的 。 而 当 我 们 使 
用 神经 网 络 等 工具 作为 函数 近似 器 (Function Approximator) 来 处 理 更 复杂 的 问题 时 ，Q 值 的 估 
计 是 存在 误差 的 ， 也 就 是 说 : 









































@Qapprox(s/， a) = QESH (s? à) um ve (6.10) 























其 中 ，Y3 是 零 均值 的 噪声 。 但 使 用 max 操作 ， 会 导致 CQapprx 和 QUret 之 间 存 在 误差 。 将 误差 表 
示 为 Lae 我 们 有 : 




















Z, Sg + ymax QPP (s/, â) _ (R? + ymax QES, a)), 
a a 


(6.11) 
=y(max Q*"(s', à) — max Q*'t*(s', â)). 

















考虑 噪声 项 Y2 ,一些 Q 值 可 能 偏 小 , 而 另 一 些 可 能 偏 大 。max 操作 总 是 为 每 个 状态 选择 最 大 
的 @ 值 ,这 将 导致 算法 对 高 估 动 作 的 对 应 Q 值 异常 敏感 。 在 这 种 情况 下 ， 该 噪声 使 得 EE[2Zs] > 0, 
从 而 导致 过 估计 问题 。 
挛 生 延 迟 DDPG 算法 在 深度 确定 性 策略 梯度 算法 中 引入 了 Double Q-Learning， 通 过 建立 两 
个 @ 值 网 络 来 估计 下 一 个 状态 的 值 : 


































































































Qo: (s, a^) = Qo: (s Toi (s")), (6.12) 
Qu; (s', a^) 一 Qo; (s', 74, (s^)). (6.13) 























使 








j 两 个 Q 值 中 的 最 小 值 计算 贝尔 曼 方程 














A 


Yp=r+y min Qo; (s', rg1(s’)). (6.14) 








使 用 截断 的 Double Q-Learning， 目 标 网 络 的 估 值 不 会 给 Q-Learning 的 目标 带 来 过 高 的 估计 
误差 。 虽然 此 更 新 规则 可 能 导致 低估 ， 但 这 对 更 新 影响 不 大 。 因 为 与 过 估计 的 动作 不 同 ， 低 估 的 
动作 的 Q 值 不 会 被 显 式 更 新 (Fujimoto et al., 2018). 

对 于 第 二 个 技术 ,我 们 知道 目标 网 络 是 实现 深度 强化 学 习 算法 稳定 更 新 的 有 力 工具 。 因 为 函 






























































pd 
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数 逼 近 需 要 多 次 梯度 更 新 才能 收敛 ， 目 标 网 络 在 学 习 过 程 中 给 算法 提供 了 一 个 稳定 的 更 新 目标 。 
羽 此 ， 如 果 目 标 网 络 可 以 用 来 减少 多 步 更 新 的 误差 ， 且 错误 状态 估计 下 的 策略 更 新 会 导致 发 散 的 
策略 更 新 ， 那 么 策略 网 络 应 该 以 比价 值 网 络 更 低 的 频率 进行 更 新 ， 以 便 在 进行 策略 更 新 之 前 先 最 
小 化 价值 估计 的 误差 。 因此 ， 杰 生 延 人 运 DDPG 算法 降低 了 策略 网 络 的 更 新 频率 ， 策 略 网 络 只 在 价 
值 网 络 更 新 d 次 后 才 进 行 更 新 。 这 种 策略 更 新 方式 可 以 使 Q 值 函 数 的 估计 具有 更 小 的 方差 ， 从 
而 获得 质量 更 高 的 策略 更 新 。 

对 于 第 三 个 技术 ,确定 性 策略 的 一 个 问题 是 该 类 方法 对 于 值 空间 中 的 窗 峰 估计 可 能 存在 过 拟 
Ao EFE DDPG 算法 原文 中 ， 作 者 认为 相似 的 动作 应 该 具有 相似 的 值 估计 ， 因 此 将 目标 动 
作 周 围 的 一 小 块 区 域 的 值 进行 模糊 拟 合 是 有 道理 的 : 


























































































































































































































































































































y — rt E.[Qu (s, no (s') + €). (6.15) 
通过 在 每 个 动作 中 加 入 截断 的 正 态 分 布 噪声 作为 正则 化 ， 可 以 平滑 Q 值 的 计算 ， 避 免 过 拟 
合 。 修 正 后 的 更 新 如 下 : 














y=7+7yQo'(s, my (s) + €), € ~ clip(.N(0,0), —c, c). (6.16) 
算法 伪 代 码 见 算法 6.27. 


算法 6.27 TD3 


MEM: 软 更 新 因子 po、 回报 折扣 因子 yY、 截 断 因子 c 
输入 : 回放 缓存 D, 初始 化 Critic 网 络 Qo, ; Qo, BR 01,02, HUM Actor 网 络 Tb 参数 
初始 化 目标 网 络 参数 0; — 01,02 — 09,0 —— Q 
for t = 1 to T dodo 
选择 动作 4 ~ Telst) +e, € ~ N (0,0) 
存储 状态 转移 数据 对 (St, Ar, Ri, Dt, St+1) 到 也 
WD 中 采样 大 小 为 V 的 小 批量 祥 术 (5,, Ay, Ry, De, Sear) 
Gt1 € Ty (Sí) + €, € ~ clip(N(0,6, —6, c))« 
y € Re t (1 — Di) minizi» Qe, Sioa, Gt+1) 
更 新 Critic 网 络 0; — arg ming, N^! > (y — Qo, (Si, A)? 
if t mod d then 
更 新 x 
VoJ(¢) =N! y» VaQo, (St, Ai)| A,—55 (8) V 61$ (91) 
更 新 目标 网 络 : 0 
6; — p0; + (1— pe; 
ó € pó - (1— p)ó 
end if 
end for 
















































































X 63 REQ 网 络 和 ActorCritic 的 结合 





6.4 ”柔性 Actor-Critic 算法 


柔性 Actor-Critic (Soft Actor-Critic, SAC) 算法 继续 采用 了 上 一 章 提 到 的 最 大 化 烂 的 想法 。 学 
习 的 目标 是 最 大 化 业 正 则 化 的 累积 奖励 而 不 只 是 累计 奖励 ， 从 而 鼓励 更 多 的 探索 。 





























max vi r(St, Ac) + o/(ma(-|8:))) | - (6.17) 


To 








XE a 是 正则 化 系数 。 最 大 化 粒 增 强 学 习 这 个 想法 已 经 被 很 多 论文 ,包括 (Fox etal.,2016; Haarnoja 
et al., 2017; Levine et al., 2013; Nachum et al., 2017; Ziebart et al., 2008) 提 及 。 在 本 节 中 ， 我 们 主要 
介绍 柔性 策略 迭代 〈Soft Policy Iteration) 算法 。 以 这 个 算法 为 基础 ， 我 们 会 接着 介绍 SAC. 























6.4.1 柔性 策略 迭代 


柔性 策略 迭代 是 一 个 有 理论 保证 的 学 习 最 优 最 大 化 箭 策略 的 算法 。 和 策略 和 欠 代 类 似 ， 和 柔性 策 
略 迭 代 也 分 为 两 步 : 柔性 策略 评估 和 和 柔性 策略 提高 





























V*(s) =E | >》 4° (r(S:, 4)+a3t(r(1S))| ， (6.18) 


t 











Q(s,a) = r(s, a) + YE[V(s’)] (6.19) 














这 里 假设 s^ ~ Pr (-|s,a) 是 下 一 个 状态 。 可 以 很 容易 地 验证 以 下 式 子 成 立 。 

















V*(s) = Eo; [Q(s, a) — alog(als)] . (6.20) 











在 柔性 策略 评估 时 ， 定 义 的 贝尔 曼 回 渊 算 子 7 为 




















T"Q(s,a) = r(s,a) + YE [V7(s‘)] . (6.21) 











AUREL, RAIE AWERI FERI Q0 : Sx A> R, QF = Tm"Q* 1 会 收敛 到 
的 柔性 C 值 。 
在 策略 提高 阶段 ， 我 们 用 当前 的 Q ERKE P CK HU YE DU AE S Da AE TRU R8 o 



































n(|s) = arg max Ea; [Q(s, a) + aH(r)]. (6.22) 





6.4 XE Actor-Critic 算法 





求解 以 上 这 个 优化 问题 后 (Fox et al., 2016; Nachum et al., 2017) 可 以 得 到 的 解 为 





_ exp (Qs. )). 















































n(|s) = Zi) (6.23) 
这 里 Z(s) 是 归 一 化 常数 ， 也 即 Z(s) = Yo, exp (二 Q(s,a))。 如 果 采 用 的 策略 模型 无 法 表达 最 
优 的 策略 r+， 我 们 可 以 进一步 求解 
i ; 
(|s) = arg min De («ume ae) (6.24) 








我 们 可 以 证 明 在 学 习 过 程 , 上 面 描述 的 柔性 策略 提高 阶段 也 有 单调 提高 的 性 质 。. 即 使 在 使 用 KL- 散 
度 投影 到 II 之 后 这 个 性 质 也 是 成 立 的 。 这 一 点 和 上 一 章 提 到 的 TRPO 类 似 。 最 后 ， 我 们 可 以 证 
明和 柔性 策略 迭代 和 策略 迭代 类 似 收敛 到 最 优 解 ， 如 以 下 定理 所 示 。 
定理 6.1 让 ro € 姬 为 初始 策略 。 假 设 在 柔性 策略 迭代 算法 下 ,ro 会 收 化 到 rx， 那么 对 任意 的 
(s,a) € S x A det£ €89 0 € II, Q"*(s,a) 2 Q"(s,a)。 

我 们 省 略 了 这 一 章 提 到 的 各 个 结论 的 证 明 过 程 。 感 兴趣 的 读者 可 以 参考 论文 (Haarnoja et al., 
2018)。 




































































6.4.2 SAC 


























SAC 进一步 把 柔性 策略 迭代 拓展 到 更 实用 的 函数 近似 设 定 下 , 它 采 用 在 价值 函数 和 策略 函数 
之 间 进 行 交 替 优 化 的 方式 来 学 习 ， 而 不 只 是 通过 估计 策略 站 的 Q@ 值 来 提升 策略 。 

S Qs(s,a) 表示 Q 值 函数 ，re 表示 策略 函数 。 这 里 我 们 考虑 连续 动作 的 设 定 并 假设 re 的 
输出 为 一 个 正 态 分 布 的 期 望 和 方差 。 和 本 书 前 面 提 到 的 方法 类 似 ，Q@ 值 函数 可 以 通过 最 小 化 柔性 
Bellman 5X 2:5K^£ 2]: 


















































































































































Jol) =E [CE = r(Si, At) — y, LS,+1 [se | . (6.25) 











这 里 Vi(s) = Es, |Qs(s.a) - alog no(als)|. Qs 表示 参数 5 由 Q 值 函数 的 参数 o 的 指数 移 
动 平均 数 得 到 的 目标 Q 值 网 络 。 策 略 函 数 ro 可 以 通过 最 小 化 以 下 的 KL- 散 度 得 到 。 
































s) - Qu(s, oj] . (6.26) 


Ja (0) =Es.p [Es [o log Tela 












































实际 中 ，SAC 也 使 用 了 两 个 Q 值 函 数 〔 同 时 还 有 两 个 Q 值 目标 函数 ) 来 处 理 Q 值 估计 的 
偏差 问题 ， 也 就 是 令 Qu(s a) = min (Qu, (s.a), Qu, (s, a)) - 注意 到 .所 (0) 中 的 期 望 也 依赖 于 策略 
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Tbo， 我 们 可 以 使 用 似 然 比例 梯度 估计 的 方法 来 优化 J, (0) (Williams, 1992)。 在 连续 动作 空间 的 设 
定 下 ， 我 们 也 可 以 用 策略 网 络 的 重 参数 化 来 优化 。 这 样 往往 能 够 减少 梯度 估计 的 方差 。 再 参数 化 
的 做 法 将 re 表示 成 一 个 使 用 状态 s 和 标准 正 态 样本 € 作为 其 输入 的 函数 直接 输出 动作 a: 




















































































































a= fo(s,€). (6.27) 


代入 In (0) 的 式 子 中 














Jr(0) = Ese [alog no(fo(s,e)|s) — Qols, fols, ))] - (6.28) 




















ATE N 表示 标准 正 态 分 布 ，re 现在 被 表示 为 foo 
最 后 ，SAC 还 提供 了 自动 调节 正则 化 参数 a 方法 。 该 方法 通过 最 小 化 以 下 损失 函数 实现 。 
































J(a) = Eaxro [—a log To(a|s) — ar] . (6.29) 














这 里 d — ^ n] BEEN A EE. PET a TTL RA TE. MUN 
Je AY JER BLE E 28 x PRON k ART, CREE CS OO HAER. X ELA 
调节 方法 的 严格 表述 感 兴趣 的 读者 ， 可 以 参考 SAC 的 论文 (Haarnoja et al., 2018). HIE 6.28 给 出 
了 SAC 的 伪 代 码 。 




































































算法 6.28 Soft Actor-Critic (SAC) 


MSM: HIR k, HK AQ, Ar, Aa, 指数 移动 平均 系数 r。 
输入 : 初始 策略 函数 参数 0, 初始 Q 值 函数 参数 $1 和 o». 
D = 0; 6; = di fori = 1,2 
for k = 0,1,2,--- = 
fort = 0,1,2,--- 
从 Tol: [5;) Ta At, 保存 (Ri, S141)» 
D=DvU (95, At, Re, S11) 
end for 
进行 多 步 梯 度 更 新 : 
di = di — AQV Jo(ói) for i = 1,2 
0 = 0 — A, Vo Jz (0) 
a=a—A,VJ(a) 
à; = (1—7)¢ + 7; for i = 1,2 
end for 
返回 0, $1, $2» 
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65 ”代码 例子 


本 节 将 分 享 DDPG、TD3、 和 SAC 的 代码 例子 。 它 们 都 是 使 用 Q 网 络 作为 批判 者 的 Actor- 
Critic 方法 。 这 里 的 例子 都 基于 OpenAI Gym 环境 。 由 于 这 些 算法 都 基于 连续 动作 空间 ， 我 们 使 
] 了 “Pendulum-V0” 环 境 。 









































i 


6.5.1 相关 的 Gym 环境 


之 前 有 提 到 过 ，Pendulum-V0 是 一 个 经 典 的 倒立 摆 环 境 。 它 有 3 维 观测 空间 和 1 维 动作 空间 。 
在 每 步 中 ， 环 境 根据 当前 的 旋转 角度 、 速 度 和 加 速度 返回 一 个 奖励 。 此 任务 的 目标 是 让 倒立 摆 尽 
量 直 立 不 动 ， 来 获取 最 高 分 数 。 



























































6.5.2 DDPG: Pendulum-V0 











DDPG 使 用 离线 策略 和 TD 方法 。DDPG 类 的 结构 如 下 所 示 。 











class DDPG(object): 


def __init__(self, action dim, state dim, action range): # 初始 化 








def ema update(self): # 指数 滑动 平均 更 新 





def F— s, greedy-False): # 获得 动作 

def ea # 学 习 和 更 行 

def ER s, a, r, S_): # 存储 转移 数据 
def awan # 存储 模型 


def load(self): # 载 入 模型 





在 初始 化 函数 中 ， 建 立 了 4 个 网 络 ， 分 别 是 行动 者 网 络 、 批 判 者 网 络 、 行 动 者 目标 网 络 和 批 
判 者 目标 网 络 。 目 标 网 络 的 参数 将 被 直接 蔡 换 为 对 应 网 络 的 参数 。 





























class DDPG(object): 
def __init__(self, action dim, state dim, action range): 
self.memory = np.zeros((MEMORY CAPACITY, state dim * 2 + action dim + 1), 
dtype-np.float32) 
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self.pointer = 0 

self.action_dim, self.state_dim, self.action_range = action_dim, state_dim, 
action_range 

self.var = VAR 


W_init = tf.random_normal_initializer(mean=0, stddev=0. 3) 


b init = tf.constant_initializer(0.1) 


def get. actor(input state shape, name=’’): 

input layer - tl.layers.Input(input state shape, name-'A input') 

layer - tl.layers.Dense(n units-64, act-tf.nn.relu, W init-W init, 
b init-b init, name-'A l1')(input layer) 

layer - tl.layers.Dense(n units-64, act-tf.nn.relu, W init-W init, 
b init-b init, name-'A 12')(layer) 

layer - tl.layers.Dense(n units-action dim, act-tf.nn.tanh, W init-W init, 
b init-b init, name-'A a')(layer) 

layer - tl.layers.Lambda(lambda x: action range * x)(layer) 


return tl.models.Model(inputs-input layer, outputs-layer, name-'Actor' + name) 


def get. critic(input state shape, input. action. shape, name=’’): 
State input - tl.layers.Input(input state shape, name-'C s input') 
action input = tl.layers.Input(input action shape, name-'C a input') 
layer - tl.layers.Concat(1)([state input, action input]) 
layer - tl.layers.Dense(n units-64, act-tf.nn.relu, W init-W init, 
b init-b init, name=’C_11’) (layer) 
layer - tl.layers.Dense(n units-64, act-tf.nn.relu, W init-W init, 
b init-b init, name-'C 12')(layer) 


layer = tl.layers.Dense(n units-1, W init-W init, b init-b init, 





name-'C out')(layer) 
return tl.models.Model(inputs-[state input, action input], outputs-layer, 


name-'Critic' + name) 


# 建立 网 络 

self.actor = get_actor([None, state_dim]) 

self.critic = get_critic([None, state_dim], [None, action_dim]) 
self.actor.train() 


self.critic.trainQ 
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def copy para(from model, to model): 
for i, j in zip(from model.trainable weights, to model.trainable weights): 


j-assign(i) 


# 替换 参数 
self.actor_target = get_actor([None, state_dim], name=’_target’) 
copy_para(self.actor, self.actor_target) 


self.actor_target.eval() 


self.critic_target = get_critic([None, state_dim], [None, action_dim], 
name=’_target’) 
copy_para(self.critic, self.critic_target) 


self.critic_target.evalQ 


self.ema = tf.train.ExponentialMovingAverage(decay-1 - TAU) # 软 蔡 换 


self.actor opt = tf.optimizers.Adam(LR A) 
self.critic opt - tf.optimizers.Adam(LR C) 

















在 训练 过 程 中 ， 目 标 网 络 的 参数 将 通过 滑动 平均 来 更 新 。 




















def ema_update(self): 
paras = self.actor.trainable_weights + self.critic.trainable_weights 
self.ema.apply (paras) 
for i, j in zip(self.actor_target.trainable_weights + 
self.critic_target.trainable_weights, paras): 


i.assign(self.ema.average(j)) 

















于 策略 网 络 是 一 个 确定 性 策略 网 络 ， 所 以 我 们 如 果 不 是 要 贪心 地 选择 动作 ， 就 要 对 动作 增 
加 一 些 随机 。 我 们 这 里 使 用 了 一 个 正 态 分 布 作为 随机 项 ， 它 的 方差 会 随 着 更 新 迭代 而 渐渐 减 小 。 
这 里 的 随机 可 以 改 成 其 他 方式 ， 如 O-U 噪声 。 不 过 OpenAl! 推荐 使 用 不 相关 的 0 均值 高 斯 噪声 ， 
效果 很 好 。 





















































IT 









































def get action(self, state, greedy-False): 
a = self.actor(np.array([s], dtype=np.float32)) [0] 
if greedy: 


return a 





! 链 接见 读者 服务 
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3 增加 一 些 随机 ， 来 让 动作 采样 带 有 一 些 探索 


return np.clip(np.random.normal(a, self.var), 





-self.action_range, 


self.action_range) 
































在 learnO 函数 中 , 我 们 从 回放 缓存 中 采样 离线 数据 , 并 使 用 贝尔 曼 方程 来 学 习 Q 函数 。 之 





















































后 ， 可 以 通过 最 大 化 Q 值 来 学 习 策略 。 最 后 ， 通 过 Polyak 平均 (Polyak, 1964) 来 更 新 目标 网 络 ， 
其 公式 为 68 — 989 + (1— p)09',0*' + p0" + (1— p)07 。 





def learn(self): 
self.var *- .9995 
indices - np.random.choice(MEMORY CAPACITY, size-BATCH SIZE) 


bt - self.memory[indices, :] 


bs = bt[:, :self.s dim] 
ba = bt[:, self.s dim:self.s dim + self.a dim] 
br - bt[:, -self.s dim - 1:-self.s dim] 


bs. - bt[:, -self.s dim:] 


with tf.GradientTape() as tape: 
a. = self.actor target(bs. ) 
q— = self.critic target([bs , a. ]) 
y = br + GAMMA * q_ 
q = self.critic([bs, ba]) 
td_error = tf.losses.mean_squared_error(y, q) 
c_grads = tape.gradient(td_error, self.critic.trainable_weights) 


self.critic_opt.apply_gradients(zip(c_grads, self.critic.trainable weights)) 


with tf.GradientTape() as tape: 
a = self.actor(bs) 
q = self.critic([bs, a]) 
a loss = -tf.reduce_mean(q) £ 最 大 化 O (& 
a grads - tape.gradient(a loss, self.actor.trainable weights) 
self.actor opt.apply. gradients(zip(a grads, self.actor.trainable weights)) 
self.ema update() 
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H 








放 缓 存 来 存储 每 步 的 转移 数据 。 


store_transition() 函数 使 用 了 








def store_transition(self, s, a, r, S_): 
S = s.astype(np.float32) 
s_ = S. .astype(np.f10at32) 
transition = np.hstack((s, a, [r], s. )) 
index - self.pointer 
self.memory[index, :] - transition 


self.pointer += 1 






















































































ERE BR DT, le ERE Ip HP A ER A EAS ORE A ELE, BRA 
回放 缓存 中 随机 采样 数据 更 新 网 络 。 











env = gym.make(ENV_ID) .unwrapped 


# 设置 随机 种 子 ， 方 便 复 现 效 果 
env.seed(RANDOM SEED) 
np.random.seed(RANDOM SEED) 
tf.random.set seed(RANDOM SEED) 


State dim = env.observation_space.shape[0] 
action dim = env.action space.shape[0] 


action range = env.action space.high # 缩放 动作 [-action range, action range] 


agent - DDPG(action dim, state dim, action range) 


tO = time.time() 


if args.train: # 训练 
all episode reward - [] 
for episode in range(TRAIN EPISODES): 
state = env.reset() 
episode. reward = 0 
for step in range(MAX STEPS): 
if RENDER: 
env.render() 
# 添加 探索 噪声 
action = agent.get_action(state) 
state_, reward, done, info = env.step(action) 


agent.store_transition(state, action, reward, state_) 
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if agent.pointer > MEMORY_CAPACITY: 
agent.learn() 

state = state. 

episode_reward += reward 

if done: 
break 


if episode == 0: 
all episode reward.append(episode reward) 
else: 
all episode reward.append(all episode reward[-1] * 0.9 + episode reward * 
0.1) 
print( 
"Training | Episode: {}/{} | Episode Reward: {:.4f} | Running Time: 
{:.4£}’ . format ( 
episode+1, TRAIN_EPISODES, episode_reward, 
time.time() - tO 


agent.save() 

plt.plot(all episode reward) 

if not os.path.exists('image'): 
os.makedirs('image') 


plt.savefig(os.path.join('image', 'ddpg.png')) 

















在 训练 完成 后 ， 可 以 进行 测试 。 














if args.test: 

# 测试 

agent. load() 

for episode in range(TEST EPISODES): 
state = env.reset() 
episode. reward = 0 
for step in range(MAX STEPS): 

env.render() 


State, reward, done, info - env.step(agent.get action(state, greedy-True)) 
episode reward += reward 


214 


6.5 ”代码 例子 





if done: 
break 


print ( 


'Testing | Episode: {}/{} | Episode Reward: {:.4f} | Running Time: 


{:.4£}’ . format ( 
episode + 1, TEST_EPISODES, episode_reward, 
time.time() - t0)) 





6.5.3 TD3: Pendulum-V0 














TD3 代码 使 用 了 这 些 类 : ReplayBuffer. QNetwork, PolicyNetwork 和 TD3. 














ReplayBuffer 类 用 来 建立 一 个 回放 缓存 ， 它 的 主要 函数 是 pushO 和 sample() & 








class ReplayBuffer: 
def | init. (self, capacity): # 初始 化 函数 


def push(self, state, action, reward, next state, done): # 存 入 数据 
def sample(self, batch size): # 采样 数据 


def len (self): 4 通过 重 构 以 实现 对 len 函数 的 支持 












































-init 函数 负责 初始 化 ， 其 中 只 包含 指针 、 绥 存 和 容量 值 变量 。 




















def | init. (self, capacity): 
self.capacity - capacity 
self.buffer - [] 


self.position = 0 


















































pushO 函数 负责 将 数据 存 入 缓存 ， 并 且 移动 指针 。 这 里 的 缓存 是 一 个 环形 缓存 。 





def push(self, state, action, reward, next_state, done): 
if len(self.buffer) < self.capacity: 
self.buffer.append(None) 
self.buffer[self.position] = (state, action, reward, next_state, done) 


self.position = int((self.position + 1) 














a 





sample O 函数 负责 从 缓存 中 采样 数据 并 返回 。 
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def sample(self, batch_size): 
batch = random.sample(self.buffer, batch_size) 
state, action, reward, next state, done = map(np.stack, zip(*batch)) # 推 琶 各 元 素 


return state, action, reward, next state, done 














通过 重 构 __len__O 函数 可 以 在 ReplayBuffer 类 被 lenO 函数 调用 的 时 候 返 











H 





缓存 的 











def __len__(self): 


return len(self.buffer) 






































Tit 
| 








In 


QNetwork 类 被 用 于 建立 批判 者 的 Q Peg. REHEAT He 
Model 类 并 重 构 forward 函数 来 建立 网 络 模型 。 














立 网 络 的 方法 ， 通 过 继承 





























class QNetwork(Model): 
def __init__(self, num inputs, num actions, hidden dim, init w-3e-3): 

super(QNetwork, self). init O 

input dim = num inputs + num actions 

w init = tf.random uniform initializer(-init w, init w) 

self.linearl = Dense(n units-hidden dim, act-tf.nn.relu, W init-w init, 
in channels-input dim, name=’q1’) 

self.linear2 - Dense(n units-hidden dim, act-tf.nn.relu, W init-w init, 
in channels-hidden dim, name=’q2’) 


self.linear3 = Dense(n units-1, W init-w init, in channels-hidden dim, name=’q3’) 


def forward(self, input): 
x - self.linearl(input) 
x = self.linear2(x) 
x = self.linear3(x) 


return x 











Tit 


PolicyNetwork 类 用 于 建立 行动 者 的 策略 网 络 。 它 在 建立 网 络 模型 的 同时 ,也 增加 了 evaluateG)、 
get action(). sample_action() 函数 。 





class PolicyNetwork (Model): 
def | init. (self, num inputs, num actions, hidden dim, action range-1., 
init w-3e-3): # 初始 化 网 络 
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def forward(self, state): # 





init 


构 前 向 传播 函数 


def evaluate(self, state, eval noise scale): # 进行 评估 


def get action(self, state, explore noise scale, greedy-False): # 获取 动作 


def sample action(self): # 采样 动作 








EY 网 络 结构 的 详细 过 程 如 下 所 示 。 








class PolicyNetwork(Model): 
def __init__(self, num inputs, num actions, hidden dim, action_range=1., 

init. w-3e-3): 

super(PolicyNetwork, self). init .O 

Ww init = tf.random uniform initializer(-init w, init w) 

self.linearl = Dense(n units-hidden dim, act-tf.nn.relu, W init-w init, 
in channels-num inputs, name-'policyl') 

self.linear2 - Dense(n units-hidden dim, act-tf.nn.relu, W init-w init, 
in channels-hidden dim, name-'policy2') 

self.linear3 - Dense(n units-hidden dim, act-tf.nn.relu, W init-w init, 
in channels-hidden dim, name-'policy3') 

self.output linear - Dense(n units-num actions, W init-w init, 
b init-tf.random uniform initializer(-init w, init w), 
in channels-hidden dim, name-'policy output') 

self.action range - action range 


self.num actions - num actions 


def forward(self, state): 
x - self.linearl(state) 
x = self.linear2(x) 


x = self.linear3(x) 




















output = tf.nn.tanh(self.output linear(x)) # 这 里 的 输出 范围 是 [-1, 1] 
return output 












































evaluateO 函数 通过 评估 状态 产生 用 于 计算 梯度 的 动作 。 它 利 
有 噪声 的 动作 。 





























j 目 标 策略 平滑 技术 来 产生 
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def evaluate(self, state, eval_noise_scale): 
state = state.astype(np. float32) 
action = self.forward(state) 
action = self.action_range * action 
# 添加 噪声 
normal = Normal(8, 1) 
eval_noise_clip = 2 * eval_noise_scale 


x 


noise - normal.sample(action.shape) * eval noise scale 
noise - tf.clip by value(noise, -eval noise clip, eval noise clip) 
action = action + noise 


return action 





























get actionO 函数 通过 状态 来 产生 用 于 和 环境 交互 的 动作 。 





def get_action(self, state, explore_noise_scale, greedy=False): 
action = self.forward([state]) 
action = self.action_range * action.numpy() [0] 
if greedy: 
return action 
# 添加 噪声 
normal = Normal(8, 1) 


x 


noise - normal.sample(action.shape) * explore noise scale 
action += noise 


return action.numpy() 
































sample actionO 函数 用 于 在 训练 开始 时 产生 随机 动作 。 





def sample_action(self, ): 
a = tf.random.uniform([self.num_actions], -1, 1) 


return self.action_range * a.numpy() 





接 下 来 介绍 TD3 类 ， 它 是 本 例子 的 核心 内 容 。 





class TD3O: 
def __init__(self, state_dim, action_dim, replay_buffer, hidden_dim, action_range, 
policy_target_update_interval=1, q_lr=3e-4, policy_lr=3e-4): 
# 创建 回放 缓存 和 网 络 





def target ini(self, net, target net): # 初始 化 目标 网 络 时 用 到 的 硬 找 由 更 新 
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def target_soft_update(self, net, target_net, soft_tau): # 通过 使 用 Polyak 平均 对 目标 





# 网 络 进行 软 更 新 


def update(self, batch_size, eval_noise_scale, reward_scale=10., gamma=0.9, 


soft tau-1e-2): 4 更 新 TD3 中 的 所 有 网 络 





def save(self): # 存储 训练 参数 


def load(self): # 载 入 训练 参数 




















初始 化 函数 创建 了 2 个 Q 网 络 、1 个 策略 网 络 ， 还 建立 了 它们 的 目标 网 络 。 总 共 建 立 了 


(2 十 1) x 22 6 个 网 络 。 





class TD3O: 


def __init__(self, state_dim, action_dim, replay_buffer, hidden_dim, action_range, 


policy_target_update_interval=1, q_lr=3e-4, policy_lr=3e-4): 


self.replay_buffer = replay_buffer 


# 初始 化 所 有 网 络 


self.q_net1 = QNetwork(state dim, action dim, hidden dim) 


self.q net2 - QNetwork(state dim, action dim, hidden dim) 


self.target q netl1 = QNetwork(state dim, action dim, hidden dim) 


self.target q net2 - QNetwork(state dim, action dim, hidden dim) 


self.policy net - PolicyNetwork(state dim, action dim, hidden dim, action range) 


self.target policy net - PolicyNetwork(state dim, action dim, hidden dim, 


action. range) 


print('Q Network (1,2): ', self.q_net1) 


print('Policy Network: 


# 初始 化 目标 网 络 参数 


, self.policy_net) 


self.target_q_netl = self.target_ini(self.q_net1, self.target_q_net1) 


self.target_q_net2 = self.target_ini(self.q_net2, self.target_q_net2) 


self.target_policy_net = self.target_ini(self.policy_net, self.target_policy_net) 


# 设置 训练 模式 


self.q_net1.train() 
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self.q net2.train() 


self.target_q_net1.train() 


self.target_q_net2.train() 


self.policy_net.trainQ 


self.target policy net.train() 


self.update cnt = 0 


self.policy target update interval - policy target update interval 


self.q_optimizerl = tf.optimizers.Adam(q lr) 


self.q optimizer2 - tf.optimizers.Adam(q lr) 


self.policy optimizer - tf.optimizers.Adam(policy lr) 





target iniO 函数 和 target. soft updateO 函数 都 用 来 更 新 目标 网 络 。 不 同 之 处 在 


者 是 通过 硬 拷贝 直接 
































m 
àl 




















换 参 数 ， 而 后 者 是 通过 Polyak 平均 进行 软 更 新 。 











am 
c 





def target ini(self, net, target net):- 


for target param, param in zip(target. net.trainable. weights, 


net.trainable weights): 


target param.assign(param) 


return target net 


def target soft update(self, net, target net, soft tau):- 


for target param, param in zip(target net.trainable weights, 


net.trainable weights): 


target param.assign(target param * (1.0 - soft tau) + param * soft tau) # 软 更 


新 


return target_net 








接 下 来 将 介绍 关键 的 updateO 函数 。 这 部 分 充分 体现 了 TD3 算法 的 3 个 关键 技术 。 








在 函数 的 开始 部 分 ， 我 们 先 从 











H 





放 缓存 中 采样 数据 。 














def update(self, batch_size, eval_noise_scale, reward_scale=10., gamma=0.9, 


soft tau-1e-2): 4 更 新 TD3 中 的 所 有 网 


络 





self.update_cnt += 1 


# 采样 数据 


state, action, reward, next_state, done = self.replay_buffer.sample(batch_size) 
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reward = reward[:, np.newaxis] # 扩展 维度 


done = done[:, np.newaxis] 




















Be POR, 我 们 通过 给 目标 动作 增加 噪声 实现 了 目标 策略 平滑 技术 。 通过 这 样 跟随 动作 的 变化 ， 
对 Q 值 进 行 平滑 ， 可 以 使 得 策略 更 难 利用 Q 函数 的 拟 合 差错 。 这 是 TD3 算法 中 的 第 三 个 技术 。 









































# 技术 三 : 目标 策略 平滑 。 通 过 给 目标 动作 增加 噪声 来 实现 


new_next_action = self.target_policy_net.evaluate( 





next_state, eval_noise_scale=eval_noise_scale 


) # 添加 了 截断 的 正 态 噪声 


通过 批 数据 的 均值 和 标准 差 进 行 标准 化 
reward = reward_scale * (reward - np.mean(reward, axis=0)) / np.std(reward, 


axis=0) 














T 





下 一 个 技术 是 截断 的 Double-Q Learning。 它 将 同时 学 习 两 个 Q 值 函 数 , 并 且 选 择 较 小 的 Q 值 























来 作为 贝尔 曼 误差 损失 函数 中 的 目标 Q 值 。 通 过 这 种 方法 可 以 减轻 Q 值 的 过 估计 。 这 也 是 TD3 
算法 中 的 第 一 个 技术 。 
































# 训练 Q 函数 


target_q_input = tf.concat([next_state, new_next_action], 1) #0 维 是 样本 数量 














# 技术 一 : 截断 的 Double-Q Learning。 这 里 使 用 了 更 小 的 Q 值 作为 目标 Q 值 
target q min = tf.minimum(self.target q netl(target q input), 
self.target q net2(target q input)) 


target q value = reward + (1 - done) * gamma * target q min # 如 果 done==1， 则 只 有 
# reward 值 
q_input = tf.concat([state, action], 1) # 处 理 Q 网 络 的 输入 


with tf.GradientTape() as ql tape: 

predicted q valuel = self.q netl(q input) 

q value loss1 = tf.reduce mean(tf.square(predicted q valuel - target q value)) 
q1. grad = q1 tape.gradient(q value lossl, self.q netl.trainable weights) 
self.q optimizerl.apply gradients(zip(ql grad, self.q neti.trainable weights)) 


with tf.GradientTape() as q2 tape: 
predicted q value2 = self.q net2(q input) 


q value loss2 = tf.reduce mean(tf.square(predicted q value2 - target q value)) 
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q2_grad = q2_tape.gradient(q_value_loss2, self.q net2.trainable weights) 
self.q_optimizer2.apply_gradients(zip(q2_grad, self.q net2.trainable weights)) 























最 后 一 个 技术 是 延迟 策略 更 新 技术 。 这 里 的 策略 网 络 及 其 目标 网 络 的 更 新 频率 比 Q 值 网 络 
的 更 新 频率 更 小 。 论 文 (Fujimoto et al., 2018) 中 建议 每 2 次 Q 值 函 数 更 新 时 进行 1 次 策略 更 新 。 
这 也 是 TD3 算法 中 提 到 的 第 二 个 技术 。 






























































# 训练 策略 函数 
# 技术 二 : 延迟 策略 更 新 。 减 少 策略 更 新 的 频率 
if self.update_cnt 
with tf.GradientTape() as p tape: 
new action = self.policy net.evaluate( 
state, eval noise scale-60.68 
) # 无 噪声 ， 确 定性 策略 梯度 
new_q_input = tf.concat([state, new_action], 1) 
# 实现 方法 一 : 
# predicted_new_q_value = 
tf.minimum(self.q_net1(new_q_input) , self.q_net2(new_q_input) ) 
# 实现 方法 二 : 
predicted new q value = self.q netl(new q input) 
policy loss - -tf.reduce mean(predicted new q value) 
p.grad - p. tape.gradient(policy loss, self.policy net.trainable weights) 
self.policy. optimizer.apply. gradients (zip(p. grad, 
self.policy_net.trainable_weights)) 


# 软 更 新 目标 网 络 

self.target_q_netl = self.target_soft_update(self.q_net1, self.target_q_netl, 
soft_tau) 

self.target_q_net2 = self.target soft update(self.q net2, self.target_q_net2, 
Soft tau) 

self.target policy net - self.target soft update(self.policy net, 
self.target policy net, soft tau) 





如 下 是 主要 训练 代码 。 这 里 先 创建 环境 和 智能 体 。 











# 初始 化 环境 
env = gym.make(ENV_ID) .unwrapped 
state_dim = env.observation_space.shape[0] 


action dim = env.action_space.shape[0] 
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action_range = env.action_space.high # 缩放 动作 [-action_range, action_range] 


# 设置 随机 种 子 ， 以 便 复 现 效果 
env.seed(RANDOM SEED) 
random.seed(RANDOM SEED) 
np.random. seed (RANDOM_SEED) 


tf.random.set seed(RANDOM SEED) 


# 初始 化 回放 缓存 





replay buffer = ReplayBuffer(REPLAY BUFFER SIZE) 


# 初始 化 智能 体 


agent = TD3(state_dim, action_dim, action_range, HIDDEN_DIM, replay_buffer, 
POLICY_TARGET_UPDATE_INTERVAL, Q_LR, POLICY_LR) 


tO = time.time() 





在 开始 片段 之 前 ， 需 要 做 一 些 初 始 化 操作 。 这 上 
片段 迭代 数 。 由 于 网 络 建立 的 方式 不 同 ， 这 利 



























































有 训练 时 间 受 总 运行 步 数 的 限制 ， 而 不 是 最 大 
方式 需要 在 使 用 前 额外 调 月 





日 一 次 函数 。 





# 训练 循环 
if args.train: 
frame idx = 0 


all episode reward - [] 











# 这 里 需要 进行 一 次 额外 的 调用 ， 以 使 内 部 函数 进行 一 些 初始 化 操作 ， 让 其 可 以 正常 使 用 





# model.forward #2 


state = env.reset() .astype(np. float32) 


agent.policy. net([state]) 


agent.target policy net([state]) 














在 训练 刚 开始 的 时 候 ， 会 先 由 智能 
和 得 
































更 新 的 数据 。 在 那 之 后 ， 智 能 体 还 是 























A— 





体 进 行 随机 采样 。 通 过 这 种 方式 可 以 采集 到 足够 多 的 用 于 























FE 常 一 样 与 环境 





WIT AR 





互 并 采集 数 
































is d 


于 进行 存储 和 更 新 。 








for episode in range(TRAIN. EPISODES): 
state - env.reset().astype(np.float32) 


episode. reward = 0 


for step in range(MAX STEPS): 


if RENDER: 


env.render() 


if frame idx » EXPLORE STEPS: 
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action = agent.policy_net.get_action(state, EXPLORE_NOISE_SCALE) 
else: 


action = agent.policy net.sample action() 


next state, reward, done, _ = env.step(action) 
next state - next state.astype(np.float32) 


done = 1 if done is True else 0 


replay buffer.push(state, action, reward, next state, done) 
state = next state 
episode reward += reward 


frame idx += 1 


if len(replay buffer) » BATCH SIZE: 
for i in range(UPDATE ITR): 
agent.update(BATCH SIZE, EVAL NOISE SCALE, REWARD. SCALE) 
if done: 
break 








最 终 ， 我 们 提供 了 一 些 可 视 化 训练 过 程 所 需 的 函数 ， 并 将 训练 的 模型 进行 存储 。 








if episode == 0: 
all episode reward.append(episode reward) 
else: 
all episode reward.append(all episode reward[-1] * 0.9 + episode reward * 
0.1) 
print( 
*Training | Episode: {}/{} | Episode Reward: {:.4f} | Running Time: 
{: .4f}’ . format ( 
episode+1, TRAIN_EPISODES, episode_reward, 
time.time() - tO 


) 
agent.save() 
plt.plot(all episode reward) 
if not os.path.exists(’ image’): 
os.makedirs('image') 


plt.savefig(os.path.join('image', 'td3.png')) 
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6.5.4 SAC: Pendulum-v0 























SAC (EH T ARRAIA AI BL ETT DUI. EK RAEE SE, (Et 
使 用 了 一 些 TD3 中 的 技术 。 其 目标 Q 值 的 计算 使 用 了 两 个 Q 网 络 中 的 最 小 值 和 策略 x(&|s) 的 对 
数 概率 。 例 子 中 的 代码 使 用 了 这 些 类 : ReplayBuffer、SoftQNetwork、PolicyNetwork 和 SAC. 
其 中 ReplayBuffer 和 SoftQNetwork 类 与 TD3 中 的 ReplayBuffer 和 QNetwork 类 一 样 ， 


这 里 就 不 再 歼 述 ， 直 接 介绍 后 续 的 代码 。 




































































































































































class ReplayBuffer: # 一 个 环形 回放 缓存 ， 用 于 存储 转移 数据 并 提供 数据 采样 
def __init__(self, capacity): 


class SoftQNetwork(Model): # 用 于 评估 状态 -动作 值 Q(s,a) 的 网 络 


def __init__(self, num inputs, num actions, hidden dim, init w-3e-3): 

















PolicyNetwork 类 也 和 TD3 的 十 分 相似 。 不 同 之 处 在 于 ，SAC 使 用 了 一 个 随机 策略 网 络 ， 而 
不 是 TD3 中 的 确定 性 策略 网 络 。 



































class PolicyNetwork(Model): 
def | init. (self, num inputs, num actions, hidden dim, action range-1., 
init w-3e-3, log std min--20, log std max-2): # 初始 化 
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随机 策略 网 络 输出 了 动作 和 对 数 标准 差 来 描述 动作 分 布 。 因 此 网 络 有 两 层 输出 。 





class PolicyNetwork (Model): 
def | init. (self, num inputs, num actions, hidden dim, action range-1., 
init w-3e-3, log std min--20, log. std max-2): 

super(PolicyNetwork, self). init  O 

self.log. std min = log. std min 

self.log std max - log std max 

w init - tf.keras.initializers.glorot normal(seed-None) 

self.linearl = Dense(n units-hidden dim, act-tf.nn.relu, W init-w init, 
in channels-num inputs, name=’policyl’) 

self.linear2 - Dense(n units-hidden dim, act-tf.nn.relu, W init-w init, 
in channels-hidden dim, name-'policy2') 

self.linear3 - Dense(n units-hidden dim, act-tf.nn.relu, W init-w init, 
in channels-hidden dim, name-'policy3') 

self.mean linear - Dense(n units-num actions, W init-w init, 
b init-tf.random uniform initializer(-init w, init w), 
in channels-hidden dim, name-'policy mean') 

self.log std linear - Dense(n units-num actions, W init-w init, 
b init-tf.random uniform initializer(-init w, init w), 
in channels-hidden dim, name-'policy logstd') 

self.action range - action range 


self.num actions - num actions 























这 里 在 forward) 函数 中 的 对 数 标准 差 上 进行 截断 ， 防 止 标准 差 过 大 。 























def forward(self, state): 
x = self.linearl(state) 
x = self.linear2(x) 
x = self.linear3(x) 
mean = self.mean_linear (x) 
log_std = self.log std linear(x) 


log.std - tf.clip by value(log.std, self.log std min, self.log std max) 
return mean, log. std 


























evaluate() 函数 使 用 重 参数 技术 从 动作 分 布 上 采样 动作 ， 这 样 可 以 保证 梯度 能 够 反 向 传播 。 
函数 也 计算 了 采样 动作 在 原始 动作 分 布 上 的 对 数 概率 。 
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def evaluate(self, state, epsilon-1e-6): 
State - state.astype(np.float32) 
mean, log std - self.forward(state) 
std = tf.math.exp(log std) # PN RETRY, RI AK E 
normal = Normal(8, 1) 
z = normal.sample(mean. shape) 
action 8 = tf.math.tanh(mean + std * z) £ 动作 选用 TanhNormal 477; 这 里 使 用 了 重 
# 数 技术 





vw 











action = self.action range * action 0 
# 根据 论文 原文 ， 这 里 最 后 加 了 一 个 额外 项 以 标准 化 不 同 动 作 范 昌 
log prob = Normal(mean, std).log_prob(mean + std * z) - tf.math.log(1. - 


























en 


action 0 ** 2 + epsilon) - np.log(self.action range) 

# normal.log prob 和 -log(1-a**2) 的 维度 都 是 (N,dim of action); 
# Normal.log prob 输出 了 和 输入 特征 一 样 的 维度 ， 而 不 是 1 维 的 概率 
# 这 里 需要 跨 维度 相 加 ， 来 得 到 1 维 的 概率 ， 或 者 使 用 多 元 正 态 分 布 
log_prob = tf.reduce sum(log prob, axis=1)[:, np.newaxis] 

# 由 于 reduce sum 减少 了 1 个 维度 ， 这 里 将 维度 扩展 回来 


return action, log_prob, z, mean, log_std 





















































get actionO 函数 是 前 面 函数 的 简单 版 。 它 只 需要 从 动作 分 布 上 采样 动作 即 可 。 























def get_action(self, state, greedy=False): 
mean, log_std = self.forward([state]) 
std = tf.math.exp(log_std) 
normal = Normal(8, 1) 
z = normal.sample(mean. shape) 
action = self.action_range * tf.math.tanh( 
mean + std * z 


) 4 动作 分 布 使 用 TanhNormal 分 布 ; 这 里 使 用 了 下 








uml 
"n 











参数 技术 








action = self.action range * tf.math.tanh(mean) if greedy else action 


return action.numpy() [0] 























sample_action() 函数 更 加 简单 。 它 只 用 在 训练 刚 开 始 的 时 候 采 集 第 一 次 更 新 所 需 的 数据 。 














def sample_action(self, ): 


a = tf.random.uniform([self.num_actions], -1, 1) 


return self.action_range * a.numpy() 
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SAC 的 结构 如 下 : 





class SACO: 
def . init | (self, state dim, action dim, replay buffer, hidden dim, action range, 


soft q lr-3e-4, policy lr-3e-4, alpha lr-3e-4): # 建立 网 络 及 变量 


def target soft update(self, net, target net, soft tau): £4 更 新 目标 网 络 时 所 用 到 的 软 更 
# 新 ， 使 用 了 Polyak 平均 





def update(self, batch size, reward_scale=10., auto entropy-True, 
target entropy--2, gamma-0.99, soft tau-1e-2): # 更 新 SAC 中 所 有 的 网 络 


def save(self): # 存储 训练 参数 




















SAC 算法 中 有 5 个 网 络 ， 分 别 是 2 个 soft Q 网 络 及 其 目标 网 络 ， 以 及 一 个 随机 策略 网 络 。 另 
外 还 需要 一 个 alpha RERE 73/8 LE TU A I 2821 




















class SACO: 
def | init. (self, state dim, action dim, replay buffer, hidden dim, action range, 
soft. q lr-3e-4, policy lr-3e-4, alpha lr-3e-4): 
self.replay buffer - replay buffer 


# 初始 化 所 有 网 络 

self.soft q netl1 = SoftQNetwork(state dim, action dim, hidden dim) 
self.soft q net2 - SoftQNetwork(state dim, action dim, hidden dim) 
self.target soft q net1 = SoftQNetwork(state dim, action dim, hidden dim) 
self.target soft q net2 - SoftQNetwork(state dim, action dim, hidden dim) 
self.policy net - PolicyNetwork(state dim, action dim, hidden dim, action range) 
self.log alpha = tf.Variable(0, dtype-np.float32, name-'log alpha") 
self.alpha = tf.math.exp(self.log. alpha) 

print('Soft Q Network (1,2): ', self.soft_q_net1) 

print('Policy Network: ', self.policy net) 

# set mode 


self.soft q neti.train() 
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self.soft q net2.train() 
self.target soft q netl.eval() 
self.target soft q net2.eval(Q) 
self.policy net.train() 


# 初始 化 目标 网 络 的 参数 

self.target_soft_q_netl = self.target_ini(self.soft_q_netl, 
self.target_soft_q_net1) 

self.target_soft_q_net2 = self.target_ini(self.soft_q_net2, 
self.target_soft_q_net2) 


self.soft_q_optimizerl = tf.optimizers.Adam(soft q lr) 
self.soft q optimizer2 - tf.optimizers.Adam(soft q lr) 
self.policy optimizer - tf.optimizers.Adam(policy lr) 


self.alpha optimizer - tf.optimizers.Adam(alpha lr) 






































这 里 我 们 介绍 一 下 updated 函数 。 其 他 函数 和 之 前 TD3 HARI — RE, EMR. RITE 
党 一样， 在 updateO 函数 的 开始 ， 我 们 先 从 回放 缓存 中 采样 数据 。 对 奖励 值 进行 正则 化 ， 以 提 
高 训练 效果 。 















































def update(self, batch size, reward_scale=10., auto_entropy=True, target_entropy=-2, 
gamma=0.99, soft tau-1le-2): 
State, action, reward, next state, done - self.replay buffer.sample(batch size) 
reward = reward[:, np.newaxis] # 扩展 维度 
done - done[:, np.newaxis] 
reward = reward scale * (reward - np.mean(reward, axis=0)) / C 
np.std(reward, axis=0) + 1e-6 


) # 通过 批 数据 的 均值 和 标准 差 进 行 标 准 化 ， 并 增加 一 个 极 小 的 数 防止 除 以 8 导致 数值 溢出 问题 





















































在 这 之 后 ， 我 们 将 基于 下 一 个 状态 值 计算 相应 的 Q 值 。SAC 使 用 了 两 个 目标 网 络 输出 中 较 
小 的 值 , 这 里 和 TD3 相同 。 但 是 与 之 不 同 的 是 ，SAC 在 计算 目标 Q 值 的 时 候 增 加 了 炉 正 则 项 。 这 
里 的 log prob 部 分 是 一 个 权衡 策略 随机 性 的 箭 值 。 


# 训练 Q 函数 


new_next_action, next_log_prob, _, _, = self.policy_net.evaluate(next_state) 




































































target q input = tf.concat([next state, new next action], 1) # 第 0 维 是 样本 数量 
target q min - tf.minimum( 


self.target soft q netl(target q input), 
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self.target soft q net2(target q input) 
) - self.alpha * next log. prob 
target q value = reward + (1 - done) * gamma * target q min 
# 如 果 done==1， 则 只 有 reward 值 














在 计算 Q 值 之 后 ， 训 练 Q 网 络 就 很 简单 了 。 

















q input = tf.concat([state, action], 1) 
with tf.GradientTapeQ as ql_tape: 
predicted_q_valuel = self.soft_q_net1(q_input) 
q_value_loss1 = 
tf.reduce_mean(tf.losses.mean_squared_error(predicted_q_valuel, 
target q value)) 
q1. grad = g1 tape.gradient(q value lossl, self.soft q neti.trainable weights) 
self.soft q optimizerl.apply. gradients(zip(ql. grad, 
self.soft q netl.trainable weights)) 
with tf.GradientTapeQ as q2 tape: 
predicted q value2 - self.soft q net2(q input) 
q value loss2 - 
tf.reduce mean(tf.losses.mean squared error(predicted q value2, 
target q value)) 
q2. grad - q2 tape.gradient(q value loss2, self.soft. q net2.trainable weights) 
self.soft q optimizer2.apply. gradients(zip(q2. grad, 
self.soft q net2.trainable weights)) 








x HL SENE dL ACA E T IR. RA AA L,Y ULIS SR OR 88 FST Se 
之 间 的 权衡 达到 最 佳 。 





# 训练 策略 网 络 
with tf.GradientTape() as p. tape: 
new action, log prob, z, mean, log std = self.policy_net.evaluate(state) 
new q input = tf.concat([state, new action], 1) 4 第 0 维 是 样本 数量 
# 实现 方式 一 
predicted new q value = tf.minimum(self.soft_q_net1(new_q_input), 
self.soft q net2(new q input)) 
# 实现 方式 二 
# predicted_new_q_value = self.soft_q_net1(new_q_input) 
policy_loss = tf.reduce_mean(self.alpha * log_prob - predicted_new_q_value) 


p_grad = p_tape.gradient(policy_loss, self.policy_net.trainable_weights) 
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self.policy optimizer.apply gradients(zip(p. grad, 
self.policy net.trainable weights)) 








ea, RITE EIB AA alpha 和 目标 网 络 。 








# 更 新 alpha 
# alpha: RR CRAM) 和 利用 (最 大 化 Q 值 ) 之 间 的 权衡 
if auto_entropy is True: 
with tf.GradientTape() as alpha_tape: 
alpha_loss = -tf.reduce_mean((self.log_alpha * (log_prob + 
target entropy))) 
alpha. grad = alpha tape.gradient(alpha loss, [self.log alpha]) 
self.alpha optimizer.apply. gradients(zip(alpha grad, [self.log alpha])) 
self.alpha - tf.math.exp(self.log alpha) 
else: # 固定 alpha 值 
self.alpha 1. 
alpha loss = 0 





Il 


Il 


# 软 更 新 目标 价值 网 络 

self.target_soft_q_netl = self.target soft update(self.soft q netl, 
self.target soft q netl, soft tau) 

self.target soft q net2 = self.target soft update(self.soft q net2, 
self.target soft q net2, soft tau) 








训练 的 主 循环 和 TD3 一 样 ， 先 建立 环境 和 智能 体 。 








# 初始 化 环境 

env = gym.make(ENV_ID) .unwrapped 

State dim = env.observation_space.shape[0] 
action dim = env.action_space.shape[0] 


action range = env.action space.high # 缩放 动作 ，[-action_range，action_range] 


# 设置 随机 种 子 ， 方 便 复 现 效果 
env.seed(RANDOM SEED) 
random.seed(RANDOM SEED) 
np.random.seed(RANDOM SEED) 
tf.random.set seed(RANDOM SEED) 


# 初始 化 缓存 


231 


pe 


第 6 章 深度 Q 网 络 和 ActorCritic 的 结合 





replay buffer = ReplayBuffer(REPLAY BUFFER SIZE) 
# 初始 化 智能 体 
agent = SAC(state_dim, action_dim, action_range, HIDDEN_DIM, 


replay buffer, SOFT Q LR, POLICY LR, ALPHA LR) 
tO = time.time() 






























































之 后 ， 使 用 智能 体 和 环境 交互 ， 并 存储 用 于 更 新 的 采样 数据 。 在 第 一 次 更 新 之 前 ， 用 随机 动 
作 来 采集 数据 。 
# 训练 循环 








if args.train: 
frame_idx = 0 
all_episode_reward = [] 
# 这 里 需要 进行 一 次 额外 的 调用 ， 来 使 内 部 函数 进行 一 些 初始 化 操作 ， 让 其 可 以 正常 使 用 
# model.forward 函数 
state = env.reset() .astype(np. float32) 

















agent.policy_net([state]) 


for episode in range(TRAIN EPISODES): 
State - env.reset().astype(np.float32) 
episode. reward = 0 
for step in range(MAX STEPS): 
if RENDER: 
env.render() 
if frame idx » EXPLORE STEPS: 
action - agent.policy net.get action(state) 
else: 
action = agent.policy net.sample action() 
next state, reward, done, _ = env.step(action) 
next state - next state.astype(np.float32) 
done - 1 if done is True else 8 
replay buffer.push(state, action, reward, next state, done) 
State - next state 
episode reward += reward 


frame idx += 1 























采集 到 足够 的 数据 后 ， 我 们 可 以 开始 在 每 步 进行 更 


at 
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6.5 ”代码 例子 





if len(replay buffer) > BATCH SIZE: 


for i in range(UPDATE ITR): 
agent .update( 


BATCH_SIZE, reward_scale=REWARD_SCALE, 


auto_entropy=AUTO_ENTROPY, 


target entropy--1. * action dim 

















通过 上 述 步 又， 智能 体 就 可 以 通过 不 断 更 新 变 得 越 来 越 强 
示 训 练 过 程 









































o 


了 。 增 加 下 面 的 代码 可 以 更 好 地 显 


if episode == 0: 





all. episode reward.append(episode. reward) 
else: 


all episode reward.append(all episode reward[-1] * 0.9 + episode reward * 
8.1) 


print( 
'Training | Episode: {}/{} | Episode Reward: {:.4f} | Running Time: 
{:.4£}’ . format ( 


episode+1, TRAIN_EPISODES, episode_reward, 
time.time() - tO 





最 后 ， 存 储 模 型 并 且 绘 制 学 习 曲线 。 




















agent.save() 





plt.plot(all episode reward) 
if not os.path.exists(’ image’): 
os.makedirs(’ image’) 


plt.savefig(os.path.join('image', 'sac.png')) 
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$63 深度 Q 网 络 和 Actor-Critic 的 结合 
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这 个 部 分 介绍 了 一 些 深度 强化 学 习 的 研究 课题 ， 
者 非常 有 用 。 我 们 首 
Efficiency) 、 学 习 稳 定性 (Learning Stability) ~ "XX 


























介绍 了 几 个 深度 强化 学 习 的 




















这 些 内 容 对 希望 深入 理解 相关 研究 方向 的 读 
EE 大 挑战 ， 包 括 采 样 效 率 (Sample 


EHE (Catastrophic Interference) 、 探 索 








(Exploration). 76^*2] (Meta-Learning) 与 表征 学 习 (Representation Learning)、 多 智能 体 强化 学 
2] (Multi-Agent Reinforcement Learning)、 模 拟 到 现实 (Simulation-to-Reality, Sim2Real), LAK 
大 规模 强化 学 习 CLarge-Scale Reinforcement Learning) 。 然 后 我 们 用 6 个 章节 来 介绍 不 同 的 前 沿 











Y, 








示范 例子 ， 
basedRL)， 它 也 能 
习 是 一 个 非常 有 前 景 的 研究 方向 ， 有 很 多 面向 现实 应 
化 学 习 (Hierarchical Reinforcement Learning)， 用 以 解决 深度 强 
并 提高 学 习 效率 。 这 个 章节 还 介绍 了 一 些 框架 和 封建 
Learning) 方法 。 第 11 章 介 绍 了 多 


的 问题 ， 











f 究 挑战 的 细节 ， 以 及 目前 的 解 妇 











方法。 从 而 























助 减 缓 强化 学 习 ! 













































































究 角 度 来 看 ， 很 多 经 典 的 方法 都 包含 在 这 7 个 章节 


























第 8 章 较 为 全 面 地 介绍 了 模仿 学 习 〈Imitation Learning )。 模 仿 学 习 在 学 习 过 程 中 利用 专家 的 













































































Anab 

















He 








低 采 样 效率 的 问题 。 第 9 章 介 绍 了 基于 模型 的 强化 学 习 (Model- 
月 于 提升 学 习 效率 ,但 这 系列 方法 需要 学 习 对 环境 的 建 模 。 基 于 模型 的 强化 学 









































1H] B 2 














体 强 化 学 习 的 概念 ，/ 





究 内 容 。 第 10 章 介 绍 了 分 层 强 
化 学 习 中 灾难 性 遗忘 和 难以 探索 











出 强化 学 习 (Feudal Reinforcement 
以 把 强化 学 习 拓 展 到 多 个 智能 体 











E. 不 同 智 能 体 之 间 的 竞争 (Competitive) HME (Collaborative), tiy (Nash Equilibrium) 
:这 个 章节 中 介绍 。 第 12 章 介绍 了 深度 强化 学 习 的 并 生 


和 一 些 多 智能 体 强 
计算 (Parallel Computing), H 
这 章 介 绍 了 不 同 的 3 


236 











化 学 习 的 内 容 细节 
有 以 解决 可 扩展 性 挑战 (Scalability Challenge)， 以 提升 学 习 的 速度 。 
帮助 大 家 把 深度 强化 学 习 用 寺 





























a 





zx 11 
































现实 世界 中 的 大 规模 问题 。 














TRE EAC 2] AEA 























本 章 介 绍 了 现 有 深度 强化 学 习 研 究 和 应 用 中 的 挑战 ， 包 括 : (1) 样本 效率 问题 ; (2) 训练 稳 
EE G) 灾难 性 遗忘 问题 ，(4) 探索 相关 问题 ，(5) 元 学 习 和 表示 学 习 对 于 强化 学 习 方法 的 





跨 任务 泛 化 性 能 ; 



























































(6) 有 其 他 智能 体 作 为 环境 一 部 分 的 多 智能 体 强 化 学 习 ; CI) 通过 模拟 到 现实 





迁移 来 弥补 模拟 环境 和 现实 世界 间 的 差异 ;(8) 对 大 规模 强化 学 习 使 用 分 布 式 训练 来 缩短 执行 时 
间 ， 等 等 。 本 章 提出 了 以 上 挑战 ， 并 介绍 了 一 些 可 能 的 解决 方案 和 研究 方向 ， 来 引出 本 书 第 二 个 


板块 的 前 沿 主题 ， 









































从 第 8 章 到 第 12 章 ， 给 读者 提供 关于 深度 强化 学 习 现 有 方法 的 缺陷 、 近 来 发 








展 和 未 来 方向 的 相对 全 面 的 理解 。 


71 ”样本 效率 























强化 学 习 中 一 个 样本 高 效 (Sample-Efficient， 或 称 数 据 高 效 ，Data-Efficient〉 的 算法 意味 着 
这 个 算法 可 以 更 好 地 利用 收集 到 的 样本 ， 从 而 实现 更 快速 的 策略 学 习 。 使 用 同样 数量 的 训练 样本 


























《比如 按 强 化 学 习 中 的 时 间 步 来 统计 )， 相 比 于 其 他 样本 低 效 的 方法 ， 一 个 样本 效率 高 的 方法 可 以 
























































在 学 习 曲 线 或 最 终结 果 上 表现 得 更 好 。 以 Pong 游戏 为 例 ， 一 个 普通 人 可 能 通过 几 十 次 尝试 就 基 
本 掌握 游戏 规则 并 取得 较 好 的 分 数 。 然 而 ， 对 于 现 有 的 强化 学 习 算 法 (尤其 是 无 模型 的 方法 ) 而 























言 ， 它 可 能 需要 成 百 上 干 个 样本 来 逐渐 学 到 一 些 有 用 的 策略 。 这 构成 了 强化 学 习 中 的 一 个 关键 问 
题 : 我 们 如 何 为 智能 体 设计 更 有 效 的 强化 学 习 算法 ， 从 而 用 更 少 的 样本 更 快 地 学 习 ? 


这 个 问题 的 
至 目前 即使 在 模拟 环境 中 的 交互 也 需要 一 定 的 时 间 和 能 源 上 的 消耗 。 多 数 现 有 强化 学 习 算 法 在 解 







































































重要 性 主要 是 由 于 实时 或 现实 世界 中 的 智能 体 与 环境 交互 往往 有 较 大 的 代价 ,其 






























































决 大 规模 或 连续 空间 问题 时 有 较 低 的 学 习 效 率 ， 以 至 于 一 个 典型 的 训练 过 程 即 使 有 着 较 快 的 模拟 
速度 在 当前 计算 能 力 下 也 需要 难以 忍受 的 等 待 时 间 。 对 于 现实 世界 的 交互 过 程 情况 可 能 更 糟 ， 一 
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$73 


深度 强化 学 习 的 挑战 





些 潜在 的 问题 ， 


























比如 时 间 消 耗 、 设 备 损耗 、 强 化 学 习 探索 过 程 中 的 安全 性 和 失败 蛋 
都 对 实践 中 强化 学 习 算 法 的 学 习 效 率 提 

















提高 数据 使 用 效率 ， 一 方面 需要 包含 有 用 信息 











HH 了 更 高 的 要 求 。 
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中 更 高 效 提取 信息 的 方式 。 从 这 两 方面 出 发 ， 现 有 文献 
。 从 专家 示范 (Expert Demonstrations) 中 学 习 。 这 个 想法 需要 

















训练 样本 ， 实 际 上 属 


























选择 ， 而 且 学 习 一 个 能 解 世 





























的 先 验 知识 ， 另 一 方面 需要 能 够 从 可 获得 数据 
有 许多 方式 解决 学 习 效率 的 问题 : 


4 况 下 的 风险 等 ， 


























一 个 很 有 前 景 的 研究 
来 缓解 强化 学 习 低 学 





























个 专家 来 提供 有 高 奖励 值 的 
于 模仿 学 习 〈Imitation Learning) 的 范畴 。 它 尝试 不 仅 模仿 专家 的 动作 
未 见 过 情况 的 泛 化 策略 。 模 仿 学 习 和 强化 学 习 的 结合 实际 上 是 


























领域 ， 在 近 几 年 来 被 广泛 研究 ， 并 应 用 于 如 围棋 游戏 、 机 器 人 学 习 等 ， 





习 效率 的 问题 。 








从 专家 示范 中 学 习 的 关键 是 从 可 获得 的 示范 数据 

















将 其 用 于 更 广泛 的 情 


。 基 于 模型 (Model-Based) 的 强化 学 习 而 
介绍 的 ， 一 个 基于 模型 的 强化 学 习 方法 一 般 指 智能 体 不 仅 学 会 一 个 预测 














况 。 




















且 学 习 一 个 环境 的 模型 来 辅助 其 动作 规划 ， 





少 奖 励 作 为 其 动作 的 








反馈 。 

















» 











提取 能 生成 好 的 动作 的 潜在 规则 ， 并 









































其 动作 的 策略 ， 而 
忆 此 可 以 加 速 策略 学 习 的 速度 。 环 境 的 模型 基 
本 包括 两 个 子 模型 : 一 个 是 状态 转移 模型 (State Transition Model)， 它 可 以 给 出 智能 体 做 出 
动作 后 的 状态 变化 ， 一 个 是 奖励 模型 (Reward Model), “EY 


不 是 无 模型 (Model-Free) 强化 学 习 。 如 前 面 章 节 所 















































定 了 智能 体能 从 环境 中 得 到 多 























学 习 准确 的 环境 模型 可 以 为 更 好 地 评估 智能 体 的 当前 策略 提供 额外 信息 ， 而 这 可 以 使 整个 








学 习 过 程 更 高 效 。 然 





经 常会 有 模型 偏差 (Model Bias) 的 问题 ， 

















而 ， 基 于 模型 的 方法 有 它 自 己 的 缺点 ， 比 如 ， 实 践 中 ， 基 于 模型 的 方法 






































模型 能 准确 地 刻画 真 









































即 实际 模型 基本 不 准 




















可 能 会 产生 问题 。 

















举例 来 说 ， 一 种 基 汪 





参数 化 的 概率 模型 高 斯 过 程 来 近似 环境 的 动力 学 模型 。 它 利用 了 高 斯 过 程 简 


实 环境 ， 但 是 对 于 模型 只 























即 基于 模型 的 方法 经 常 固有 地 假设 学 习 到 的 环境 

















能 从 少量 样本 中 学 习 的 情况 ， 这 往往 不 成 立 ， 

















确 。 在 真实 环境 中 ， 当 策略 基于 不 准确 或 者 有 偏差 的 模型 进行 学 习 时 


模型 的 高 效 强化 学 习 算法 叫 PILCO (Deisenroth et al., 2011)， 它 应 用 非 














过 程 来 有 效 地 学 习 模型 ， 而 不 是 采用 神经 网 络 拟 合 。 策 略 评估 和 改进 是 基于 月 











型 。 对 于 现实 世界 




































































单 直接 的 求解 
































[学 的 概率 模 





一 个 推 车 双 钟 摆 上 翻 CCart-Double-Pendulum Swing Up) 任务 ，PILCO 
方法 用 仅 20 到 30 次 尝试 就 能 学 会 一 个 控制 的 有 效 策略 ， 而 其 他 方法 像 多 层 感知 机 可 能 最 














试 的 样本 来 学 习 一 个 动力 学 模型 。 然 而 ， 











题 ， 比 如 ， 由 于 学 习 




















策略 参数 是 一 个 非 凸 优 














PILCO 方法 也 有 它 自己 的 问 























且 高 斯 过 程 的 求解 无 法 扩展 到 复杂 模型 的 高 维 参 数 空间 上 。 











通过 解决 存在 的 缺陷 来 设计 更 加 高 效 的 学 习 算法 。 上 述 两 种 方法 尝试 通过 利 


解决 学 习 效 率 问 题 ， 

















化 问题 ， 难 以 保证 能 搜索 到 最 优 控制 方式 ， 而 


























额外 信息 来 


如 专家 示范 数据 和 环境 建 模 信 息 。 如 果 没 有 额外 信息 可 以 利用 或 环境 

















的 动态 模型 难以 准确 





学 到 ， 那 么 我 们 就 应 该 改进 算法 本 身 的 学 习 效 率 而 不 利 






































用 额外 信息 。 


强化 学 习 算法 根据 它们 的 更 新 方式 一 般 分 为 两 类 : 在 线 策略 (On-Policy) 和 离线 策略 〈O 企 - 


7.1 样本 效率 





Dee oe He 


Policy)， 如 之 前 章节 





大 的 方差 〈Variance)， 而 离线 策略 方法 可 以 利 


方差 。 


近年 来 ， 更 加 先进 和 有 效 算 法 被 不 断 提出 。 多 数 算法 是 针对 一 些 传统 算法 




















中 所 介绍 的 。 在 线 策略 方法 对 策略 的 评估 有 较 小 的 人 




















mÆ (Bias) 但 有 较 


























一 个 较 大 的 随机 采样 批 来 实现 较 小 的 估计 

















的 特定 缺陷 。 








比如 ， 为 了 减 小 策略 梯度 的 方差 ，Critic 网 络 被 引入 来 估计 ActorCritic 的 动作 -价值 函数 


CAction-Value Function) ; 为 了 将 强化 学 习 和 有 





























经 网 络 来 改进 


> 





























使 
SACO 对 策略 的 概率 分 布 采 月 


IEZ, RER 











基于 表格 (Tabular-based) 的 Q-Learni 
最 大 化 算 子 造成 的 过 估 1 
于 参数 噪声 的 Noisy DON kte y 


十 问题 ， 


Double DON 算法 使 月 























E 务 从 小 规模 扩展 到 大 规模 ，DQN 采用 了 深度 
ng 算法 ; 为 了 解决 DQN 更 新 规则 ， 
明了 一 个 额外 的 Q 网 络 ， 为 了 促 
性 Actor-Critic (Soft ActorCritic， 缩 写 为 






































Ly F | 
ODs OS 











出 ; 为 了 稳定 DDPG RRRA, 354 
提出 用 额外 的 网 络 和 延迟 更 新 的 方式 来 优化 策略 ， 为 了 确保 在 线 策略 强化 学 习 策 略 优化 的 





Ae Ds 为 了 将 DON 方法 从 只 能 解决 离散 人 
角 定 性 策略 梯度 算法 〈Deep Deterministic Policy Gradient， 缩 写 为 DDPG) 被 提 














E 务 扩展 到 连续 








E 延 迟 DDPG (Twin Delayed DDPG, 缩写 为 TD3) 
































安全 更 新 ， 基 于 信赖 域 的 算法 像 信赖 域 策 
H: 为 了 缩减 TRPO 二 阶 优化 方法 的 计算 时 i 











写 为 TRPO) 被 提 H 





各 优化 算法 (Trust Region Policy Optimization, 4 
司 ， 近 端 策略 优化 (Proximal 




















Policy Optimization， 缩 写 为 PPO ) SHEA} 














妹子 化 信赖 域 和 
Region, 缩写 为 ACKTR ) fë H 
方法 近似 逆 Fisher fà [FE 











4 Kronecker 
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阵 ; 











强化 学 习 算 法 领域 发 








多 灵活 的 参数 可 以 被 自 适 
细致 的 考虑 。 有 时 额外 的 
感 ， 而 你 需要 对 有 具体 情况 
在 上 面 例子 中 , 我 们 假设 数 




































































其 他 缺陷 的 强化 学 习 算 法 。 与 此 








的 Actor-Critic 











] 一 阶 近似 ; 为 了 加 速 二 阶 自然 梯度 下 降 方法 , 使 
算法 〈Actor Critic Using Kronecker-Factored Trust 














在 二 阶 优化 过 程 
最 大 化 后 验 策 
tion, MPO) (Abdolmaleki et al., 2018) 算法 和 它 日 
一 种 “强化 学 习作 为 推理 ”的 观点 实现 策略 优化 。MPO 使 月 
算法 (Expectation Maximization, EM) (ttt KK 98455: 2] H 
展 的 一 小 部 分 ， 我 们 希望 读者 到 文献 
同时 ， 所 提 
点 地 学 习 或 人 为 选择 








超 参数 可 以 显著 改进 学 习 
KAT 
BRAC 





Ag 


AJ 














使 用 Kronecker 因子 化 C Kronecker-Factored ) 
咯 梯度 (Maximum A Posteriori Policy Optimiza- 
A EZ TRIS AE V-MPO (Song et al., 2019) 用 
概率 推理 工具 ， 像 期 望 最 大 化 
标 。 以 上 的 算法 只 是 整个 
查找 更 多 改进 算法 学 习 效率 和 
出 的 强化 学 习 算 法 结构 变 得 越 来 越 复 杂 ， 有 更 
， 而 这 需要 在 强化 学 习 研究 中 对 其 进行 更 加 
表现 ， 但 有 时 它们 使 得 学 习 过 程 更 加 敏 






















































































































































































， 而 只 是 强化 学 习 算 法 的 学 习 效率 较 低 。 实 





A 



































践 中 ,经 常见 到 档 
表示 任务 成 ] 
0, 从 而 没有 任 


没有 任 





, 



































可 











本 缺乏 有 用 
功 与 否 的 情况 来 ; 
区 分 度 。 这些 样本 中 的 信息 








言 息 的 情 


Wb, 尤其 


























是 稀 玻 奖励 的 任务 。 比 如 , 对 于 单个 二 值 变 量 











里 





MEET 





ZI 











rai 


能 全 部 都 是 直接 奖励 (Immediate Reward) 值 为 
































自然 就 很 稀 玻 。 像 这 样 的 情况 , 在 没有 充分 的 奖 






































励 函 数 指引 的 情况 下 ， 有 效 探索 空间 的 方式 可 能 就 很 关键 。 像 后 见 之 明 经 验 
Experience Replay) (Andrychowicz et al., 2017)， 分 层 学 习 结 构 ( 
励 (Intrinsic Reward) (Sukhbaatar et al., 2018). Ef 
Hl] (Houthooft et al., 2016) 都 被 月 














他 有 效 的 探索 机 





口 





Ee 

放 (Hindsight 
Kulkarni et al., 2016). A TE 
区 使 的 探索 (Pathak et al., 2017) 和 其 


昌 于 一 些 工作 中 。 强 化 学 习 中 的 学 习 效率 由 
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于 强化 学 习 的 固有 怕 
样本 而 提高 从 样本 中 学 习 的 效率 。 

















FE 质 被 探索 过 程 显著 地 影响 ， 而 有 效 的 探索 可 以 通过 采集 到 更 有 信息 的 


























小 节 之 一 中 被 单独 讨论 。 


7.2 ”学 习 稳定 性 


深度 强化 学 习 可 能 非常 不 稳定 或 有 随机 性 。 这 里 的 “不 稳定 ” 指 ， 在 多 次 训练 中 ， 每 次 学 习 
表现 在 随时 间 变 化 的 横向 比较 中 的 差异 。 随 时 间 变 化 的 不 稳定 ， 学 习 过 程 体现 为 有 巨大 的 局 部 方 
差 或 在 单 次 学 习 曲 线 上 的 非 单调 增长 ， 比 如 有 时 学 习 表现 甚至 由 于 某 些 原因 会 下 降 。 在 多 次 训练 



























































对 比 中 的 巨大 方差 。 















































1 于 探索 是 强化 学 习 中 的 另 一 个 巨大 挑战 ， 它 将 在 后 续 































































































中 ， 不 稳定 的 学 习 过 程 体现 为 在 每 一 个 阶段 上 的 多 次 学 习 表 现 之 间 的 巨大 差异 ， 而 这 将 导致 横向 








深度 神经 网 络 的 不 稳定 性 和 不 可 预测 性 在 深度 强化 学 习 领 域 被 进一步 加 剧 ， 移 动 的 目标 分 























布 、 数 据 不 满足 独立 同 分 布 条 件 、 对 价值 函数 的 不 稳定 的 有 偏差 估计 等 因素 导致 了 梯度 估计 器 中 


的 噪声 ， 而 进一步 造成 不 稳定 的 学 习 表现 。 不 同 于 监督 学 习 在 固定 的 数据 集 上 学 习 〈 这 里 不 考虑 
批 限制 的 强化 学 习 )， 强 化 学 习 经 常 是 从 高 度 相 关 的 样本 中 学 习 的 。 比 如 ， 学 习 智 能 体 大 多 采用 
策略 探索 得 到 的 样本 ， 要 么 是 用 在 线 策 略 学 习 的 当前 策略 ， 要 么 是 离线 策略 学 习 的 先前 策略 〈 有 
时 甚至 是 其 他 策略 )。 智 能 体 和 环境 之 间 连 续 交 互 产生 的 样本 可 能 是 高 度 相 关 的 ， 











































































































这 打破 了 有 效 


学 习 神 经 网 络 的 独立 性 条 件 。 由 于 价值 函数 是 由 当前 策略 选择 的 轨迹 估计 的 ， 价 值 函数 和 估计 它 









































的 策略 之 间 也 有 依赖 关系 。 

















I 于 策略 随 训练 时 间 改 变 ， 参 数 化 的 价值 函数 的 优化 流 形 也 随时 间 改 

















变 。 考 虑 到 为 了 便于 在 训练 中 探索 ， 策 略 往往 具有 一 定 的 随机 性 ， 价 值 函数 于 是 更 加 难以 追寻 ， 



























































差 本 身 也 不 稳定 的 时 候 。 



































而 这 也 会 导致 用 来 学 习 的 数据 不 满足 独立 同 分 布 条 件 。 不 稳定 的 学 习 过 程 主要 是 
值 函数 估计 的 变化 造成 的 。 然 而 ， 有 偏差 估计 是 强化 学 习 : 


进行 的 无 偏差 估计 ， 可 羔 


























1 策略 梯度 或 价 






























































举例 来 说 ， 回 想 第 2 章 ， 为 了 实现 用 Q*(s, a) 对 动作 价 



























































不 稳定 表现 的 另 一 根源 ， 尤 其 是 当 偏 








由 函数 Q (s, a) 

















容 函 数 拟 合 条 件 (Compatible Function Approximation Condition) 需要 被 
满足 。 同 时 ， 有 一 些 其 他 条 件 来 确保 价值 函数 的 无 偏差 估计 ， 以 及 一 些 进一步 的 要 求 条 件 来 保证 





高 级 强化 学 习 算法 对 策略 改进 有 正确 且 准确 的 梯度 计算 。 然 而 ， 实 践 中 ， 这 些 要 求 或 条 件 经 常 被 
放宽 ， 而 导致 对 价值 函数 的 不 稳定 有 偏差 估计 ， 或 者 策略 梯度 中 较 大 的 方差 。 多 数 情况 下 ， 人 们 






























































讨论 强化 学 习 算法 中 估计 的 偏差 和 方差 之 间 的 权衡 ,而 不 稳定 的 偏差 项 本 里 也 可 外 



































上 促成 不 稳定 的 


学 习 表 现 。 也 有 一 些 其 他 因素 会 导致 不 稳定 的 学 习 表 现 ， 比 如 探索 策略 中 的 随机 性 、 环 境 中 的 随 





























机 性 、 数 值 计 算 的 随机 科 
论文 (Houthooft et al 
作为 一 种 应 用 于 一 般 强 化 学 习 算 法 中 的 探索 方式 。 一 些 学 习 表 现 展示 于 他 们 所 做 的 算法 比较 中 ， 






































h 子 等 。 






































., 2016) 提出 了 以 Variational Information Maximizing Exploration ( VIME) 


























在 三 种 不 同 的 环境 上 使 用 








TRPO 或 TRPO+VIME 算法 的 学 习 结 果 基 本 上 在 学 习 | 





线 上 都 显示 出 








了 较 大 的 方差 ， 如 图 7.1 所 示 。 对 于 环境 MountainCar 来 说 ，TRPO 算法 的 学 习 
































线 能 够 覆盖 整 























个 奖励 值 范 围 [0, 1]， 而 且 对 TRPO+VIME 方法 在 HalfCheetah 环境 也 是 类 似 的 情况 。 我 们 需要 注 
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意 相 比 于 其 他 一 些 强化 学 习 算法 ，TRPO 在 多 数 情况 下 已 经 是 一 个 相对 稳定 的 算法 ， 它 使 用 对 梯 
度 下 降 的 二 阶 优化 和 信赖 域 限制 。 其 他 算法 像 DDPG 可 能 在 训练 过 程 中 表现 得 更 加 不 稳定 ， 有 噪 




















声 的 探索 甚至 可 能 在 训练 了 较 长 一 段 时 间 后 显著 降低 学 习 表 现 (Fujimoto et al., 2018)。 














w= TRPO (0.0) 
e TRPO+VIME (103.7) 
50|| == TRPO+L2 (0.0) 




















(a) MountainCar (b) HalfCheetah 












































强化 学 习 过 程 中 的 随机 性 会 给 准确 评估 算法 表 
获得 平均 结果 的 重要 性 。 











(c) CartPoleSwingup 


图 7.1 VIME 实验 中 的 学 习 曲 线 。 图 片 改 编 自 文献 (Houthooft et al, 2016) ( 见 彩 插 ) 














岗 带 来 困难 ,而 这 也 显示 出 使 








不 同 随机 种 子 




















先前 关于 强化 学 习 的 调研 (Henderson et al., 2018) 中 给 出 了 一 些 关 于 深度 强化 学 习 实 验 中 不 


稳定 性 和 敏感 性 相关 的 结论 : 


。 策 略 网 络 结构 可 以 对 TRPO 和 DDPG 算法 的 结果 有 显著 影响 。 
。 对 于 策略 网 络 或 价值 网 络 的 隐藏 层 ，ReLU 或 Leaky ReLU 激活 函数 往往 在 

















算法 上 有 最 好 的 表现 。 而 这 个 效果 的 大 小 对 不 同 算法 或 环境 不 一 致 。 








。 奖励 值 缩 放 的 效果 对 不 同 环境 和 不 同 缩放 值 不 一 致 。 
。5 个 随机 种 子 (通常 的 报告 设置 ) 可 能 不 足以 论证 显著 的 结果 ,因为 如 果 你 











子 ， 不 同 的 随机 种 子 可 能 得 到 完全 不 重合 的 置信 区 间 ， 即 使 采 





























多 个 环境 和 多 个 


仔细 挑选 随机 种 





完全 相同 的 实现 方式 。 


。 环境 动态 的 稳定 性 可 能 严重 影响 强化 学 习 算法 的 学 习 表现 。 比 如 ， 一 个 不 稳定 的 环境 可 以 








迅速 削弱 DDPG 算法 的 有 效 学 习 表 现 。 


人 们 已 经 有 很 长 一 段 时 间 在 尝试 解决 强化 学 习 中 的 稳定 性 问题 。 为 了 解决 累计 奖励 函数 在 原 
始 REINFORCE 算法 中 的 较 大 方差 .价值 函数 拟 合 被 引入 来 估计 奖励 值 。 进 一 步 地 ， 动 作价 值 函 





























数 也 被 用 于 奖励 函数 近似 ， 这 降低 了 方差 ， 即 使 它 可 能 是 有 偏差 的 。 像 这 样 方 法 























构成 了 深度 强化 


学 习 算 法 的 主流 一 一 结合 Q-Learning 和 策略 梯度 (Policy Gradient) 方法 ， 如 之 前 第 6 章 中 所 介 








绍 的 。 在 原始 DQN (Mnih et al., 2013) 中 ， 使 用 目标 网 络 和 延迟 更 新 ， 以 及 经 验 匠 





























放 池 帮助 缓解 了 








不 稳定 学 习 的 问题 。 通 常 一 个 深度 函数 拟 合 器 需要 多 次 梯度 更 新 而 不 是 单 次 更 新 来 达到 收敛 ， 而 


















































各 其 打破 。 经 验 回放 池 给 DQN 提供 了 一 种 


目标 网 络 给 学 习 过 程 提 供 了 一 个 稳定 的 目标 ， 这 有 助 于 在 训练 数据 上 收敛 。 在 茶 种 程度 上 ， 它 可 
以 满足 同 分 布 条 件 ， 而 强化 学 习 在 没有 目标 网 络 时 会 








离线 策略 的 学 习 方式 ， 而 从 回放 池 中 随机 采样 到 的 训练 数据 更 接近 于 独立 同 分 布 数据 ， 这 也 有 助 
于 稳定 学 习 过 程 。 更 多 关于 DON 的 细节 在 第 4 章 中 有 所 介绍 。 此 外 ，TD3 算法 (在 第 6 章 中 介 
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绍 ) 在 DQN 的 稳定 技术 上 应 用 
基于 相似 动作 有 相似 值 的 平滑 ' 
时 












































使 / 











然而 ， 即 使 有 了 以 上 工作 ， 不 稳定 性 、 随 机 性 和 
研究 人 员 在 不 同 任务 上 评估 算法 和 复 现 结 


挑战 。 


7.3 WERS 


H 


, TD3 使 用 了 一 对 Critic 而 不 是 像 DDPG ! 
对 于 基于 策略 梯度 的 方法 来 说 ，TRPO 使 
对 更 新 后 策略 的 限制 来 保证 划 





标 策略 平滑 正则 化 (Target Policy Smooth Regularization) 方法 ， 





生 假设 ， 从 而 在 动作 目 









































保守 但 稳定 











] 二 阶 优化 通过 
的 进步 。 


标价 值 











的 估计 








加 入 噪声 ， 以 减 小 方差 。 同 








的 一 个 ， 而 这 进一步 稳定 了 学 习 表 现 。 另 一 方面 ， 












































HA 























有 














由 于 强化 学 习 通常 有 动态 的 学 习 过 程 而 非 像 监督 学 习 一 样 在 

















看 作 是 退 逐 一 个 移动 
了 在 线 策略 价值 函数 














3 





V 














目标 的 过 程 ， 





定 困难 ， 而 这 仍旧 是 强化 学 习 社 











的 信息 提供 更 稳定 的 更 新 ， 以 及 





对 初 值 及 超 参数 的 敏感 性 都 使 得 强化 学 习 





区 的 一 个 巨大 














而 数据 集 在 整个 过 程 不 断 被 更 新 。 比 如 ， 在 第 2 章 中 我 们 
(s) 和 动作 价值 函数 @r(s,a)， 它 们 都 是 用 当前 策略 r 来 估计 

















略 在 整个 学 习 过 程 : 
用 一 个 相对 稳定 的 训练 集 来 绥 
变 。 因 此 ， 一 个 叫 作 灾 难 性 遗志 

















解 这 个 问题 ， 








回放 池 ， 





都 在 更 新 ， 这 会 导致 对 价值 函数 的 动态 估计 。 尽 管 通过 离线 策略 
的 样本 仍旧 随 着 





























国定 的 数据 集 上 学 习 ， 它 可 以 被 
介绍 
的 。 但 是 策 
放 池 可 以 
而 不 断 改 









































口 





























智能 体 的 探索 过 程 





(Catastrophic Interference 或 Catastrophic Forgetting) (Kirkpatrick 





et al., 2017) 的 问题 可 能 在 学 习 过 程 ' 








方法 时 ， 这 个 问题 描述 了 其 在 解 














使 得 已 训练 过 的 网 络 改变 很 多 来 把 
化 学 习 方 法 : 
相 较 于 离线 策略 方式 ， 自 然 的 人 类 学 习 过 程 实际 更 接近 于 在 线 策略 学 习 。 
忆 中 学 习 。 然 而 ， 在 线 策略 强化 学 习 方 法 仍旧 
基于 信赖 域 的 方法 像 TRPO 和 PPO 对 学 习 过 程 ! 





些 内 容 也 是 有 用 的 。 这 是 在 强 




















地 学 习 新 事物 而 不 是 一 直 从 记 ! 
率 ， 并 且 企图 





























1j 








如 上 所 述 的 ] 
合 它 ， 从 而 忘 








兽 量 学 习 过 程 ， 


RE, 尤其 是 当 策略 或 价值 函 














BEE 





经 网 络 的 深度 学 习 


>- 



























































防止 灾难 性 遗忘 的 问题 。 
略 的 潜在 范围 做 了 限制 ， 来 保证 稳定 但 相对 缓慢 的 学 习 表 现 进步 。 对 于 在 线 策 
是 使 了 灾难 性 遗忘 的 发 生 。 











使 














以 相关 联 数 据 的 形式 被 采集 ， 这 极 大 
验 回 放 池 来 缓解 这 个 问题 ， 从 而 在 某 种 程度 上 





Experience Replay) 和 后 见 之 



































的 方式 被 提出 ， 按 照 回放 池 ， 





数据 的 





























有 较 差 能 力 的 现象 。 新 的 数据 经 常 
记 网 络 在 之 前 训练 过 程 ! 
神经 网 络 做 拟 合 器 的 一 种 




















所 学 到 的 内 容 ， 即 使 这 
局 限 性 。 

人 们 每 天 都 在 实时 
在 努力 提高 学 习 效 
更 新 策 
名 学 习 ， 样 本 通常 
此 ， 离 线 策略 学 习 方法 使 用 经 
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使 用 不 同 的 损失 函数 ,而 且 损失 





pK 


数 可 能 不 总 











2019a) 中 ， 图 











像 观 察 量 被 嵌入 潜在 表示 而 作为 策 
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在 模拟 到 现实 的 适应 过 程 中 通过 一 个 自 监督 损失 











Pars. 
。 比 如 ， 在 模拟 到 现实 的 策略 迁移 过 程 
现实 世界 数据 微调 。 然而 , 实践 中 , 两 个 过 程 可 能 





宁 留 旧 数 据 来 学 习 。 像 优先 经 验 回放 (Prioritized 
明 经 验 回放 〈Hindsight Experience Replay) 的 技术 作为 更 复杂 和 先进 
EE 要 性 或 者 其 目标 来 使 
灾难 性 遗忘 也 发 生 在 学 习 过 程 分 为 几 个 阶段 的 情况 ! 
预 训 练 而 后 利 ) 











是 与 整体 强化 学 习 目 
略 的 输入 ， 这 个 
函数 来 微调 ， 而 非 使 用 原来 在 模拟 训练 过 程 ， 








标 一 致 。 如 在 文献 Jeong et al., 








MIRARE (Embedding Network) 














的 











强化 学 习 损 失 。 这 种 在 多 阶段 训练 过 程 损失 函数 上 的 不 匹 本 

















也 可 能 在 实践 








造成 灾难 性 遗忘 ， 这 
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意味 着 策略 可 能 遗忘 预 训练 中 获得 的 技能 。 为 了 解决 这 个 问题 ， 固 定 部 分 网 络 层 并 用 之 前 的 损失 
函数 继续 更 新 网 络 可 以 在 后 训练 〈Post-Training) 过程 中 尽 可 能 保持 预 训练 的 网 络 。 另 一 个 相似 
的 想法 是 残 差 策 略 学 习 (Residual Policy Learning), 40 8.6 节 中 所 提 到 的 ， 它 也 固定 了 预 训练 网 














络 的 权重 并 在 旁边 添加 了 一 个 新 的 网 络 来 学 习 修 正 项 。 








7.4 ”探索 


探索 是 强化 学 习 中 另 一 个 主要 的 挑战 ， 它 会 显著 影 ! 









































(Exploration-Exploitation Trade-Off) 这 个 强化 学 习 中 经 








的 挑战 。 强 化 学 习 中 探索 的 困难 可 能 来 自 稀 玻 的 奖励 函数 、 较 大 的 动作 空 | 


且 为 人 所 知 问题 ， 














向 学 习 效率 。 相 比 于 探索 和 利用 间 的 权衡 











这 里 着 重 于 探索 本 身 














司 和 不 稳定 的 环境 ， 以 





及 现实 世界 中 探索 的 安全 性 问题 等 。 探 索 意 味 着 通过 交互 来 获取 更 多 关于 环境 的 信息 ， 通 常 与 利 
j 相 对。 利用 指 通过 开发 已 知 信息 来 最 大 化 奖励 。 强 化 学 习 的 学 习 过 程 基于 试 错 。 除 非 那些 最 优 
的 轨迹 在 之 前 被 探索 过 ， 和 否则 最 优 的 策略 无 法 被 学 到 。 举 例 来 说 ， 雅 达 利 游戏 像 OpenAI Gym ! 





























— 









































的 Montezuma’s Revenge. Pitfall 由 于 探索 的 困难 ， 对 于 一 般 强 化 学 习 算法 会 很 难 解 决 ， 这 几 个 游 














戏 的 场景 如 图 7.2 所 示 ， 其 中 通常 包括 一 个 复杂 的 迷宫 ， 需 要 较 复 杂 的 一 系列 操作 来 解决 。 它 们 
像 一 个 解 迷宫 的 问题 但 是 有 着 更 复杂 的 结构 和 层次 。Montezuma's Revenge 是 一 个 非常 典型 的 稀 

















玻 奖 励 任 务 ， 这 使 得 强化 学 习 的 探索 非常 难以 进行 。 在 








个 游戏 场景 中 ，Montezuma's Revenge 的 








智能 体 必 须 完成 几 十 个 连续 动作 来 通过 一 个 房间 ， 而 这 个 游戏 有 23 个 不 同 的 房间 场景 需要 智能 




































































体 指导 它 自 己 通过 。 相 似 的 情况 在 Pitfall 游戏 中 也 有 。 这 些 游戏 常用 作 评 估 强 化 学 习 方 法 在 探索 
能 力 方面 的 基准 。OpenAI 和 Deepmind (Aytar et al., 2018) 都 声称 他 们 用 高 效 的 深度 强化 学 习 方 法 
























































解决 了 Montezuma's Revenge 游戏 。 然 而 ， 这 些 结果 可 能 不 令 人 满意 。 在 他 们 的 解决 方案 中 ， 
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家 示范 都 被 用 于 辅助 探索 。 比 如 ， 在 Deepmind 的 解决 方案 中 ， 他 们 让 智能 体 观察 YouTube 视频 ， 











而 OpenAI 使 用 人 类 示范 来 更 好 地 初始 化 智 
这 里 稀 玻 奖励 任务 的 瓶颈 实际 在 卫 
不 平滑 且 非 凸 的 超 曲 面 上 优化 ， 






























































能 体位 置 。 
































策略 可 能 无 法 帮助 探索 到 更 高 
4» Ce-Greedy) 策略 ， 会 发 现 很 难 
(Near-Optimal) 的 轨迹 ， 基 于 价值 的 或 基于 策略 的 优化 方法 可 















































导致 天 败 情 况 或 者 缓慢 的 学 习 过 程 。 


























典型 的 例子 是 在 文献 (Vinyals et al., 2019) 








比较 了 雅 达 利 游戏 、 围 棋 和 《星际 争霸 》 的 信息 类 型 、 动 作 空间 、 游 戏 中 的 活动 次 数 和 玩家 数量 。 






































大 的 动作 空间 和 长 的 游戏 控制 序列 使 得 在 
玩家 的 设置 使 得 对 手 在 某 利 





















































探索 本 身 。 稀 玻 奖励 可 能 使 价值 网 络 和 策略 网 络 在 一 个 
甚至 在 训 ATH EHI IRE 的 情况 。 因 此 ， 一 步 优化 后 的 
奖励 的 区 域 。 基 于 传统 探索 策略 的 知 
在 探索 过 程 中 遇 到 高 奖励 值 的 轨迹 。 而 即便 它 个 


能 体 ， 比如 随机 动作 或 e- 贪 


] 采 样 到 近 最 优 














能 也 没有 对 这 些 样本 充分 重视 ， 而 
面 描述 的 问题 提出 了 当前 深度 强化 学 习 方法 的 缺陷 。 
除 稀 朴 奖励 外 ， 较 大 的 动作 空间 和 不 稳定 的 环境 也 对 强化 学 习 智 能 体 的 





探索 造成 困难 。 一 个 





中 解决 的 《星际 争霸 I》 (StarCraft) 游戏 。 表 7.11 中 
























































《星际 争霸 》 中 探索 一 个 好 的 策略 十 分 困难 。 此 外 ， 多 

















al 


程度 上 成 为 游戏 环境 上 





对 比 不 同 的 游戏 


雅 达 利 游戏 | 围棋 |《 星 际 争霸 》 

















的 一 部 分 ， 这 也 增加 了 探索 的 难度 。 














信息 类 型 


不 完美 





动作 空间 


1026 





每 场 游戏 的 活动 次 数 


1000/s 





玩家 数量 


为 了 解决 探索 的 问题 ， 
习 等 概念 。 通 过 模仿 学 习 ， 



























































性 结构 来 解决 Montezuma's Revenge, KILS 














使 的 探索 很 快 地 学 习 关 于 世界 的 知识 。 




















智能 体 试图 模仿 来 自 人 类 或 其 他 的 专家 示范 来 改进 学 
索 到 近 最 优 样本 的 困难 。 内 在 奖励 是 基于 这 样 的 观念 ， 
到 内 在 欲求 的 驱使 ， 比 如 希望 获 千 




















多 个 





研究 人 员 调 查 了 包括 模仿 学 习 、 内 在 奖励 (Intrinsic Reward)、 分 层 学 














习 效 率 并 减少 探 


















































即行 为 不 仅 是 外 在 奖励 的 结果 ， 而 且 也 受 
租 关 于 未 知 的 更 多 有 效 信息 。 举 例 来 说 ， 婴 儿 
好 奇 心 是 一 种 内 部 驱动 来 改进 智能 体 的 学 习 ， 使 其 朝向 更 











可 以 通过 好 奇 心 驱 









































有 探索 性 的 策略 改进 。 更 多 的 内 部 驱动 力 需要 在 研究 中 探索 。 分 层 学 习 将 复杂 
分 解 成 小 的 子 任 务 ， 这 使 其 容易 学 习 。 
制 强 化 学 习 (Feudal Reinforcement Learning) 中 的 一 个 关键 方法 使 用 了 有 管 








举例 来 说 ， 封 建制 网 络 (Feudal Network, FuN) 作为 封建 
里 者 和 工作 者 的 层次 


































































































一 个 称 为 Go-Explore， 


























难以 探索 的 任务 





























更 有 效 的 探索 和 学 习 (Vezhnevets et al., 2017). 
近年 来 ， 一 些 新 方法 被 提出 来 解决 探索 问题 ， 划 


它 不 是 一 个 深度 强 


化 学 习 的 解决 方案 。Go-Explore 的 主要 想法 是 首先 使 用 无 神经 网 络 的 确定 性 训练 来 探索 游戏 世 

















界 ， 即 不 使 用 深度 强化 学 习 的 方法 ， 随 后 使 用 一 个 深度 神经 网 络 来 模仿 学 习 最 好 的 轨迹 ， 从 而 使 
































得 策略 能 够 对 环境 的 随机 愧 








Ee HE Jy T NEU 















































大 规模 高 度 复杂 游戏 ， 比 如 《星际 有 


霸 I》，DeepMind 











1 数据 源 : Oriol Vinyals, Deep Reinforcement Learning Workshop, NeurIPS 2019. 
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7.5 元 学 习 和 表征 学 习 





的 研究 人 员 (Vinyals et al., 2019) 使 用 了 基于 族 条 
有 效 探 索 全 局 最 优 策略 ，] 
布 中 的 不 同 集群 (Clusters) E, Se GR 





















































E 探 索 过 程 的 多 样 性 。 基 























策略 空间 有 更 充分 的 探索 。 
现实 世界 中 的 探索 也 与 安全 必 



































问题 相关 。 举 例 来 说 ， 当 考虑 一 











智能 体 控 制 的 自动 区 驶 车 
i 





的 训练 (Population-based Training, PBT) 机 制 来 
其 中 智能 体 集合 成 为 联盟 (League)。 不 同 的 智能 体 被 初始 化 到 策略 分 
的 训练 相 比 于 单个 智能 体 对 













































































辆 时 ， 有 和 车祸 的 失败 情况 也 是 智能 体 应 该 从 中 进行 学 习 的 。 但 是 现实 中 














辆 实际 的 车 不 可 能 被 用 






































zy 


来 采集 这 些 失 败 情况 的 样本 ， 而 使 智能 体 以 可 接受 的 低 损 耗 从 中 学 习 。 现实 的 车 辆 甚至 不 能 采用 























随机 动作 来 探索 ， 因 为 它 可 能 导致 灾难 性 的 结果 。 相 同 的 问题 也 存在 于 其 他 现实 世界 应 用 中 ， 比 







































































如 机 器 人 操作 、 机 器 人 手术 等 。 为 了 解决 这 个 问题 ， 模 拟 到 现实 的 转移 〈Sim-to-Real Transfer) 的 








方法 可 以 用 于 将 强化 学 习 部 署 到 现实 世界 ， 它 先 在 模拟 中 进行 训练 ， 


7.5 ”元 学 习 和 表征 学 习 
































名 A 


将 集 略 转 移 到 现实 中 。 





除 改 善 一 个 具体 任务 








， 研 究 人 员 也 在 寻求 能 够 提高 在 不 同 任务 上 整体 学 习 于 








现 的 方法 ， 这 与 模型 的 通用 性 (Generalit 





y) MAHI (Versatility) 相关。 



































让 智能 体 基于 它 所 学 习 的 旧 
学 习 (Meta-Learning )、 表 和 














折 任 务 上 更 快 地 学 习 ? 而 在 这 旦 
FE 学习 (Representation Learning )、 迁 移 学 习 〈《Transfer Learning) 等 。 




















you 





对 此 ， 我 们 会 问 ， 如 何 











可 以 介绍 多 个 概念 ， 包括 元 


元 学 习 的 问题 实际 上 可 以 追溯 到 1980—1990 年 (Bengio et al., 1990)。 近 来 深度 学 习 和 深度 强 





nu 


化 学 习 重 新 将 这 个 问题 带 入 我 们 的 视野 。 许 多 令 人 兴 

















的 想法 被 提出 ， 比 如 那些 与 模型 无 关 的 元 


学 习 (Model-Agnostic Meta-Learning) 方法 ， 以 及 一 些 更 强大 的 跨 任务 学 习 方法 在 近年 来 都 有 快 











速 发 展 。 元 学 习 的 最 初 





























目的 是 让 智能 体 解决 不 同 问 题 或 掌握 不 同 技能 。 
每 个 任务 都 从 头 学 习 ， 尤 其 是 用 深度 学 习 来 拟 合 的 时 
习 , 是 让 智能 体 根据 以 多 




































































过 程 ， 而 元 学 习 者 (Meta-Learner 


通常 一 个 普通 的 学 习 者 学 习 





然而 ， 我 们 无 法 忍受 它 对 
Me. TOFS (Meta-Learning)， 也 称 学 会 学 
新 任务 上 更 快 学 习 的 方法 , 而 非 将 每 个 任务 作为 一 个 单独 的 任务 。 
被 看 作 是 元 学 习 中 的 内 循环 〈InnerLoop) 学 习 












































个 外 循环 COuter-Loop) 学 习 过 程 来 更 新 内 循环 学 

















习 者 。 这 两 种 学 习 过 程 











PERIA RENT 











三 个 元 学 习 的 主要 类 别 为 循环 


模型 (Recurrent Model), ZÆ (Metric Learning) 和 学 习 优化 器 COptimizer)。 结 合 元 学 习 和 





强化 学 习 ， 可 以 得 到 元 强化 学 习 (Meta-Reinforcement Learning) 方法 。 
法 像 与 模型 无 关 的 元 学 习 (Finn et al., 2017) 可 以 通过 小 样本 学 习 (Few-Shot Learning) 或 者 几 步 
更 新 来 解决 一 个 简单 的 新 人 

对 于 一 个 具体 的 任务 领域 ， 不 同 的 人 
从 这 个 域内 采样 到 的 一 些 任务 中 学 习 这 些 潜在 的 规 和 
来 更 快 地 学 习 ? 这 个 学 习 潜 在 的 关系 或 规 得 
(Bengio et al., 2013) 的 概念 密切 相关 。 表 行 
学 习 表 示 方 式 和 提取 有 效 信息 或 特 行 









































F 务 之 间 可 能 有 隐藏 的 关联 性 质 。 我 们 是 否 能 让 智能 
上 的 内 容 泛 化 到 其 他 任务 上 
的 过 程 与 一 个 叫 表 征 学 习 (Representation Learning 
上 ， 被 定义 为 从 原始 数据 ! 


























EE， 从 而 将 所 学 至 
































F 学 习 起 初 在 机 器 学 习 ， 





种 有 效 的 元 强化 学 习 方 











> 











VY 












































于 分 类 器 或 预测 器 《比如 强化 学 习 中 的 策略 使用。 于 














wi 
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征 学 习 试图 学 习 抽象 且 简 洁 的 














特征 来 表示 原始 材料 ， 并 且 通 过 这 种 抽象 ， 预 测 器 或 分 类 器 不 会 降 









































低 它们 的 表现 ， 而 


将 这 些 规律 迁移 有 利于 在 不 同 任务 上 的 学 习 过 程 。 表征 学 习 通 常 可 以 用 于 学 习 强 化 学 习 环 境 中 复 

State Representation Learning; SRL). XX ZR AS 
在 一 个 合适 的 抽象 空间 下 的 不 变性 和 独特 性 特征 ， 而 这 是 从 多 样 化 的 任务 域 中 提炼 出 来 的 。 举 例 
来 说 ， 在 一 个 拍摄 物体 运动 的 视频 的 一 系列 帧 中 ， 物 体 表 





















































更 高 的 学 习 效 率 。 学 习 隐 藏 的 表示 对 于 强化 学 习 中 提高 学 习 效 


























率 十 分 有 用 ， 









































杂 状 态 的 简单 表示 ， 这 被 称 为 状态 表征 学 习 《 


的 特殊 点 ) 集合 是 对 物体 运动 
































动 。 不 同 的 物体 有 不 同 的 关键 点 集合 ， 因 而 也 可 以 用 来 区 分 物体 。 强 化 学 习 中 的 表 和 
王 务 域 、 模 拟 到 现实 的 域 迁 移 等 。 它 是 一 个 有 希望 且 在 








跨 域 的 强化 学 习 策 


中 。 在 这 种 表示 方式 下 ， 这 些 关 键 点 的 位 置 帮 













































































外 角 上 的 关键 点 (或 者 物体 表面 上 其 他 























的 一 种 恒定 且 鲁 棒 的 表示 ， 尽 管 帧 中 的 像素 点 总 是 随 着 物体 运动 而 
改变 。 这 些 关 键 点 有 时 在 计算 机 视觉 术语 中 称 为 描述 器 〈Descriptors)， 它 们 存在 一 个 描述 器 空间 












































HAAR 


























探索 中 的 方向 ， 可 
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EE 要， 包括 不 同 的 



























































fH 


以 用 了 











究 人 类 是 如 何 利 用 知识 进行 规划 的 。 





7.6 ”多 智能 体 强化 学 习 

















FE 物体 运动 中 将 会 改变 ， 因 此 可 以 用 来 表示 物体 的 运 


F 学 习 对 需要 

















在 之 前 介绍 的 章节 中 ， 环 境 中 只 有 一 个 智能 体 来 寻找 最 优 策略 ， 这 属于 单 智能 体 强 化 学 习 。 
除 单 智 能 体 强化 学 习 外 ， 我 们 实际 可 以 在 同一 个 场景 中 设置 多 个 智能 体 ， 来 对 多 智能 体 策 略 进行 
同时 探索 ， 这 个 过 程 可 以 交替 或 者 同时 进行 ， 称 为 多 智能 体 强化 学 习 《〈Multi-Agent Reinforcement 





Learning; MARL). MARL 是 一 个 有 希望 






















































































习 情况 的 方式 ， 包 括 群 体 智能 


























到 其 所 在 环境 的 限 


He 
现代 学 习 算 法 更 多 的 是 出 















































、 智 能 体 环境 的 动态 变化 、 智 能 体 本 身 的 创新 等 。 



































制 | o [^ 此 ， 

















值得 探索 的 方向 ， 提 供 了 一 种 能 够 研究 非常 规 强化 学 


色 的 受 试 者 (Test-Takers)， 而 非 创 新 者 。 智 能 体 的 智能 上 限 可 能 受 























创新 的 产生 成 为 人 工 智能 (Artificial Intelligence, AD 





















































中 一 个 较 热 


的 话题 。 一 种 通 向 这 个 愿景 的 最 有 希望 路 径 是 通过 多 智能 体 的 社会 交互 来 学 习 。 在 多 智能 体 学 习 





























， 智 能 体 如 何 击败 对 手 或 与 他 人 合作 不 是 由 环境 8 














的 发 明 者 从 未 定义 什么 策略 能 够 击败 对 手 ， 而 对 手 通常 也 构成 了 动态 环境 的 一 部 分 。 
体 的 自我 演化 过 程 中 ， 大 量 先 进 的 策略 被 发 明 出 来 ， 每 个 智能 体 作 


代 又 一 代 人 类 玩家 或 人 工 智 能 

















为 其 他 人 环境 的 一 部 分 ， 而 对 








MARL 中 结合 


et al., 2017; Nowé et al., 2012) 中 








传统 的 博弈 论 (Game Theory) 和 现代 深度 强 









































自身 的 提高 也 构成 他 人 的 新 挑战 。 





























的 建造 者 决定 的 。 举 例 来 说 ， 古 老 的 围棋 游戏 














然而 ， HU 








化 学 习 的 方法 近来 在 文献 (Lanctot 
了 所 探索 ， 以 及 一 些 新 的 想法 如 自我 博弈 〈Self-Play) (Berner 








et al., 2019; Heinrich et al., 2016; Shoham et al., 2003; Silver et al., 2018a)、 优 先 虚 拟 自 我 博弈 
(Prioritized Fictitious Self-Play) (Vinyals et al., 2019)、 基 于 族群 的 训练 (Population-Based Training, 


PBT) (Jaderberg et al., 2017; Vinyals et al., 2019) 和 独立 怕 











FE 强 化 学 习 (Independent Reinforcement 











Learning, InRL) (Lanctot et al., 2017; Tan, 1993). MARL 不 仅 使 得 探索 多 智能 体 环境 中 的 分 布 




















式 智能 成 为 可 能 ， 











MAA BR 

















在 较 大 规模 复杂 环境 中 学 习 近 最 优 或 近 平衡 的 智能 体 











策略 ， 比 如 ， 






































Deepmind 用 于 掌握 游戏 《星际 争霸 ID) ff] AlphaStar， 如 图 7.3 所 示 。AlphaStar 的 框架 中 用 到 
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7.7 模拟 到 现实 

















PBT， 通 过 使 用 一 个 联盟 (League) 的 智能 体 ， 每 一 个 智能 体 由 图 7.3 中 一 个 带 索引 值 的 色 块 来 
表示 ， 这 种 训练 方式 被 用 来 保证 在 策略 空间 的 充分 探索 。 在 PBT 中 ， 策 略 优化 的 单位 不 再 是 每 
个 智能 体 的 单一 策略 ， 而 是 整个 联盟 的 智能 体 。 整 体 策 略 不 仅 关 于 一 个 具体 策略 ， 而 更 是 整个 联 
盟 中 智能 体 的 整体 表现 。 更 多 关于 MARL 的 内 容 在 第 11 章 中 有 详细 介绍 。 
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Data AlphaStar League 
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StarCraft Il Pro Match 








ERI 





73 AlphaStar 的 训练 机 制 。 每 个 小 方块 表示 一 个 AlphaStar 联盟 中 训练 的 智能 体 ( 见 彩 插 ) 


7.7 ”模拟 到 现实 


强化 学 习 方 法 可 以 成 功 地 解决 大 量 模拟 环境 中 的 任务 ， 甚 至 在 一 些 具 体 领域 可 以 超过 最 好 的 
人 类 表现 ， 比 如 围棋 游戏 。 然 而 ， 应 用 强化 学 习 方 法 到 现实 任务 上 的 挑战 仍旧 未 被 解决 。 除 了 鸦 
达 利 游戏 、 策 略 性 计算 机 游戏 、 纸 牌 游戏 ， 强 化 学 习 在 现实 世界 中 的 潜在 应 用 包括 机 器 人 控制 、 
车 辆 自动 驾驶 、 无 人 机 自动 控制 等 。 这些 涉及 现实 世界 中 硬件 的 任务 通常 对 安全 性 和 准确 性 有 较 
高 要 求 。 对 于 这 些 情况 ， 一 个 误 操 作 可 能 导致 灾难 性 后 果 。 当 策略 是 通过 强化 学 习 方法 学 到 的 时 
候 ， 这 个 问题 就 更 加 值得 考虑 ， 因 为 即便 不 考虑 现实 世界 的 采样 效率 ， 学 习 智 能 体 的 探索 过 程 也 
会 有 巨大 影响 。 现 代 工 业 中 的 机 器 控制 仍旧 严重 依赖 传统 控制 方法 ， 而 非 最 先进 的 机 器 学 习 或 强 
化 学 习 解 决 方案 。 然 而 ， 用 一 个 聪明 的 智能 体 来 控制 这 些 物 理 机 械 仍旧 是 一 个 很 好 的 追求 ， 而 大 
量 相关 领域 的 研究 人 员 正 为 之 努力 。 

近年 来 ， 深 度 强化 学 习 被 逐渐 应 用 到 越 来 越 多 的 控制 问题 中 。 但 是 由 于 强化 学 习 算 法 较 高 的 
样本 复杂 度 以 及 其 他 一 些 物 理 限 制 ， 许 多 在 模拟 中 展示 的 能 力 尚未 在 现实 世界 中 复 现 。 我 们 主要 
通过 机 器 人 学 习 的 例子 来 展示 这 些 内 容 ， 而 这 是 一 个 越发 活跃 的 研究 方向 ， 吸 引 了 来 自学 术 界 和 
工业 界 的 关注 。 

指导 性 策略 搜索 (Guided Policy Search, GPS) (Levine et al., 2013) 是 一 种 能 够 直接 用 真实 机 器 
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人 在 有 限时 间 内 训练 的 算法 。 通 过 所 学 线性 动态 模型 进行 轨迹 优化 ， 这 个 方法 能 够 以 较 少 的 环境 














交互 学 会 复杂 的 操作 技巧 。 E 


























究 人 员 也 探索 了 用 多 个 机 器 人 进行 并 行 化 训练 的 方法 (Levine et al., 


2018)。 文 献 (Kalashnikov et al., 2018) 提出 能 同时 在 7 个 真实 机 器 人 上 进行 分 布 式 训练 的 QT-Opt 
算法 , 但 是 需要 持续 4 个 月 的 800 个 小 时 的 机 器 人 数据 采样 时 间作 为 代价 。 他 们 成 功 示范 了 直接 






































说 ， 直 接 在 物理 系统 上 训练 策略 的 成 功 例子 尚且 只 在 有 限 的 领域 得 到 验证 。 



























































在 现实 世界 部 署 的 机 器 人 学 习 ， 但 是 其 时 间 消 耗 和 资源 上 的 要 求 一 般 是 无 法 接受 的 。 更 进一步 来 








模拟 到 现实 迁移 CSim-to-Real Transfer) 则 是 可 以 替代 直接 在 现实 中 训练 深度 强化 学 习 智 能 



































体 的 方法 ， 由 于 模拟 性 能 的 提升 和 一 些 其 他 原因 ， 模 拟 到 现实 迁移 的 方法 比 之 前 受到 更 多 注意 。 





























相 比 于 直接 在 现实 世界 ， 
多 模拟 到 现实 的 方法 成 功 将 强化 学 习 智 能 体 部 署 到 现实 : 
2018)。 然 而 ， 相 比 卫 















































训练 ， 模 拟 到 现实 迁移 可 以 通过 在 模拟 中 快速 学 习 来 实现 。 近 年 来 ， 许 
(Akkaya et al., 2019; Andrychowicz et al., 
直接 在 现实 环境 中 部 署 训练 过 程 ， 模 拟 到 现实 的 方法 也 有 它 本 身 的 缺陷 XX 























主要 由 模拟 和 现实 环境 的 差异 造成 ， 称 为 现实 鸿沟 (Reality Gap)。 在 实践 中 有 大 量 因 素 会 导致 现 
































实 鸿沟 ， 而 这 





























一 > 策略 推理 
一 > 动作 执行 


S; Auc 
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Sui > > 


| Aste 
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模拟 中 的 MDP 


现实 中 的 “MDP” 

















Aj 7.4 

















图 片 展示 了 模拟 和 现实 中 MDP 的 差异 ， 它 是 











qu} 





体系 统 而 定 。 举 例 来 说 ， 系 统 动力 学 过 程 的 差异 将 导致 模拟 和 现实 的 动力 学 鸿 
沟 ， 如 图 7.4 所 示 是 一 个 例子 。 不 同 的 方法 被 提出 来 解决 模拟 到 现实 迁移 的 问题 ， 


后 续 还 会 介绍 。 





| 状态 采集 和 策略 推理 过 程 产生 的 时 间 延 迟 














造成 的 ， 这 是 造成 现实 鸿沟 的 可 能 因素 之 一 ( 见 彩 插 ) 

















我 们 首先 要 理解 现实 鸿沟 的 概念 。 现 实 应 用 中 的 现实 鸿沟 可 以 在 某 种 程度 上 用 
et al., 2019b) 中 的 图 7.5 来 理解 ， 该 图 展示 了 机 器 人 上 模拟 轨迹 和 现实 轨迹 的 差异 ， 


















































文献 (Jeong 
以 及 模拟 和 参 





考 信号 的 差异 。 对 于 强化 学 习 进行 机 器 人 控制 任务 来 说 ， 参 考 信号 是 发 送 给 智能 体 的 控制 信号 ， 
从 而 在 机 械 臂 的 关节 角度 上 获得 预期 的 行为 。 由 于 延迟 、 惯 性 和 其 他 动力 学 上 的 不 准确 性 ， 模 拟 















































和 现实 中 的 轨迹 都 会 与 参考 信号 有 显著 差异 。 此 外 ， 现 实 中 的 轨迹 与 模拟 
沟 。 图 ! 
策略 或 者 模拟 器 中 来 缩减 模拟 动力 学 过 程 和 现实 的 差异 。 泛 化 力 模型 
GFM) 是 一 个 在 论文 (Jeong et al., 2019b) 中 新 提出 的 方法 ， 可 以 
生成 与 现实 更 接近 的 模拟 轨迹 。 然 而 ， 即 使 使 
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的 系统 识别 (System Identification〉 是 一 种 确认 系统 中 动力 学 参数 值 的 方法 ， 可 


的 不 同 就 是 现实 鸿 
以 用 在 











(Generalized Force Model, 
额外 的 力 来 校正 模拟 器 ， 从 而 
了 识别 和 校正 的 方法 ， 现 实 鸿沟 依然 可 能 存在 ， 


7.7 模拟 到 现实 


























从 而 影响 策略 从 模拟 到 现实 中 迁移 。 
关节 位 置 控制 
01 
y 0.0 -| 
E 
SM -0.1 
其 
um 
护 -02 
+K | 一 参考 信号 | 
一 真实 机 器 人 轨迹 
-0.3 4| 一 系统 识别 之 前 
一 系统 识别 之 后 
一 模拟 +GFM 
o 10 20 30 
时 间 步 





图 75 在 
片 改编 自 文献 Ueong et al, 2019b) ( 见 彩 插 ) 





























除了 














个 简单 的 关节 角度 控制 过 程 中 ， 机 器 人 控制 的 参考 信号 、 模 拟 乔 


50 60 

















1 于 不 同 动力 学 过 程 导致 的 每 一 个 时 间 步 上 模拟 现实 轨迹 的 差异 , 现实 鸿沟 也 有 其 他 来 


源 。 比 如 ， 在 连续 的 现实 世界 控制 系统 中 ， 有 系统 响应 时 间 延 迟 或 系统 观察 量 构 建 过 程 耗 时 ， 而 





















































这 些 在 有 离散 时 间 步 的 理想 模拟 情况 下 可 能 都 不 存在 。 如 图 
习 设 置 下 
可 能 














程 都 
来 进行 动作 选择 。 



























































作 任务 ， 即 使 我 们 假定 有 很 快 的 神经 网 络 前 向 过 程 (Forward Process) 而 忽略 策略 推理 
耗 ， 现 实 世 界 中 物体 位 置 也 可 能 需要 一 个 摄像 机 来 捕捉 并 月 
的 时 间 来 处 理 。 















































智能 体 只 能 够 接受 先前 观察 量 Or 来 对 当前 步 做 


此 实践 ! 





















































动作 选择 4A， 而 非 直 接 根据 当前 状态 Seo DA 
的 策略 根据 时 间 延 迟 5 通常 会 有 形式 r(A) 而 这 不 同 于 模拟 ! 
练 的 策略 ， 从 而 会 产生 较 差 的 现实 表现 。 一 种 解决 这 个 问题 的 方式 是 修改 模拟 器 ， 使 其 有 相同 的 
时 间 延 迟 ， 从 而 训练 智能 体 去 学 习 。 然 而 ， 这 会 导致 其 他 的 问题 ， 比 如 如 何 精 



































7.4 所 示 ， 在 模拟 环境 或 传统 强化 学 
， 状 态 采 集 和 策略 推理 过 程 都 认为 是 始终 没有 时 间 损 耗 的 ， 而 在 现实 情况 下 ， 这 两 个 过 
能 需要 相当 的 时 间 ， 这 使 得 智能 体 总 是 根据 先前 动作 执行 时 的 先前 状态 产生 的 滞后 观察 量 





上 面 的 问题 也 会 使 得 模拟 和 现实 的 轨迹 展现 出 不 同 的 模式 ， 如 图 7.6 所 示 。 考 虑 一 个 物体 操 
































的 时 间 消 





一 些 定 位 技术 来 追踪 ， 而 这 需要 相当 








这 个 观察 量 构建 的 过 程 会 引入 时 间 延 迟 ， 从 而 即使 在 完全 相同 的 控制 信号 下 ， 现 
实 轨 迹 和 模拟 轨迹 的 对 比 图 上 也 会 展示 出 时 间 间 隙 。 这 类 延迟 观察 量 使 得 现实 世界 中 的 强化 学 习 






































根据 实时 观察 量 训 




















外 地 表示 和 测量 模 








拟 和 现实 中 的 时 间 延 迟 ， 如 何 保证 基于 延迟 观察 量 学 习 的 智能 体 的 表现 等 。 近 来 ,文献 Ramstedt 
et al., 2019) 提出 了 实时 强化 学 习 方法 ， 文 献 (Xiao et al., 2020) 提出 了 “ 边 运 动 边 思考 (Thinking 




















While Moving)” 的 方法 ， 在 连续 时 间 MDP 设置 下 减轻 了 强化 学 习 对 了 




















并 发 动作 选择 (Concurrent Action Choices) 的 问题 ， 
如 上 所 述 ， 从 强化 学 习 角 度 来 看 模拟 到 现实 迁移 的 主要 问题 在 于 








fi 
be 














得 在 现实 世界 

















F :在 模拟 中 








实时 环境 中 延迟 观察 量 和 
的 控制 轨迹 更 加 平滑 。 











1 练 得 到 的 策略 


249 


第 7 章 深度 强化 学 习 的 挑战 

































































0.4 

0.3 

i 0.2 

En 
Ao 4 
0.0 
0.0 0. 1 0.2 0.3 0.4 
时 间 / $5 

图 76 图 片 展 示 了 物体 观察 状态 ( 位 置 ) 在 同一 控制 信 号 下 的 时 间 延 迟 。 由 于 现实 中 额外 的 观 
察 量 构建 过 程 ， 现 实 世界 轨迹 ( 下 方 ) 相 比 于 模拟 轨迹 (LA) 有 一 定 延 迟 。 不 同 的 线 


























体现 了 多 次 测试 结果 ， 加 粗 的 线 为 均值 ( 见 彩 插 














由 于 现实 鸿沟 不 能 在 现实 世界 中 始终 正常 使 用 ， 这 个 现实 鸿沟 即 模拟 和 现实 的 差异 。 由 于 这 个 模 
型 的 差异 ， 模 拟 环境 中 的 成 功 策略 无 法 很 好 地 迁移 到 相应 的 现实 中 。 总 体 来 说 ， 解 决 模拟 到 现实 
迁移 的 方法 可 以 分 为 至 少 两 个 大 类 : 零 样本 (Zero-Shot) 方法 和 自 适应 学 习 方 法 。 将 控制 策略 从 
模拟 迁移 到 现实 的 问题 可 以 被 看 作 是 域 自 适应 (Domain Adaption) 的 一 个 例子 ， 即 将 一 个 在 源 域 
(Source Domain) 中 训练 的 模型 迁移 到 新 的 目标 域 (Target Domain)。 这 些 方法 背后 的 一 个 关键 假 
设 是 不 同 的 域 有 公共 的 特征 ， 从 而 在 一 个 域 中 的 表征 方式 和 行为 会 对 其 他 域 有 用 。 域 自 适应 要 求 
新 的 域 中 的 数据 适应 预 训练 的 策略 。 在 新 的 域 中 获取 数据 的 复杂 性 或 困难 程度 ， 比 如 在 现实 世界 
中 收集 样本 , 这 种 自 适 应 学 习 方 法 因而 需要 有 较 高 的 效率 。 像 元 学 习 (Arndt et al., 2019; Nagabandi 
etal., 2018)、 残 差 策略 学 习 (Residual Policy Learning) (Johannink et al., 2019; Silver et al., 2018b) 和 
渐进 网 络 (Progressive Networks?) (Rusu et al., 2016a,b) 等 方法 被 用 Ju 情形 。 零 样本 CZero-Shot) 
迁移 是 一 个 与 域 自 适应 互补 一 类 技术 ， 它 尤其 适用 于 在 模拟 中 学 习 。 这 意味 着 在 迁移 过 程 中 没 
有 任何 基于 现实 世界 数据 的 进一步 学 习 过 程 。 域 随机 化 “Domain Randomization) 是 零 样本 迁移 
中 典型 的 一 类 方法 。 通 过 域 随机 化 ， 源 和 目标 域 的 差异 被 建 模 为 源 域 中 的 随机 性 。 通 过 域 随机 化 
可 以 学 到 更 普 适 的 策略 ， 而 非 过 拟 合 到 具体 模拟 器 设置 的 特征 策略 。 根 据 具 体 的 应 用 ， 随 机 化 可 
以 被 施加 到 不 同 的 特征 上 。 举 例 来 说 ， 对 于 机 器 人 操作 任务 ， 摩擦 力 和 质量 的 大 小 、 力 和 矩 和 速度 
的 误差 在 实际 机 器 人 上 都 会 影响 到 控制 的 精度 。 因 此 ， 在 模拟 器 中 这 些 参数 可 以 被 随机 化 ， 从 
而 用 强化 学 习 训练 一 个 更 鲁 棒 的 策略 (Peng et al., 2018)， 这 个 过 程 称 为 动力 学 随机 化 (Dynamics 
Randomization) 。 在 视觉 域 下 的 随机 化 可 以 用 于 直接 将 基于 视觉 的 策略 从 模拟 迁移 到 现实 ， 而 不 
要 任何 现实 的 图 像 来 训练 (Sadeghi et al., 2016; Tobin et al., 2017)。 可 能 的 视觉 随机 化 的 特征 变 
量 包括 纹理 、 光 照 条 件 和 物体 位 置 等 。 
现实 鸿沟 通常 是 依赖 于 具体 任务 的 ， 它 可 能 由 动力 学 参数 或 者 动力 学 过 程 的 定义 不 同 造成 。 
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7.8 


大 规模 强化 学 习 








除了 动力 学 随机 化 (Peng et al., 2018) 或 视觉 特征 〈 观 察 量 ) 随机 化 ， 还 有 
来 学 习 一 个 对 动力 学 敏感 CDynamics-Aware) 的 








实 鸿沟 。 利 用 系统 识别 (System Identification) 














些 








其 他 方法 来 跨越 现 











策略 (Yu et al., 2017; Zhou et al., 2019) 是 一 个 有 希望 的 方向 ， 它 试图 学 习 一 个 以 系统 特征 为 条 件 
的 策略 ， 这 些 系统 特征 包括 动力 学 参数 或 者 轨迹 的 编码 。 也 有 一 些 方法 来 最 小 化 模拟 与 现实 的 差 








异 ， 比 如 之 前 介绍 的 GFM 方法 用 于 进行 力 校正 ， 等 等 。 模 拟 到 现实 
via Sim-to-Sim) (James et al., 2019) 是 另 一 个 跨 过 现实 鸿沟 的 


























方法 ， 它 使 ) 








通过 模拟 到 模拟 C Sim-to-Real 

















j 随 机 到 标准 自 适 应 网 





络 (Randomized-to-Canonical Adaptation Networks, RCANs) 来 将 随机 的 或 现实 世界 图 像 转 化 成 它 





们 同等 的 非 随 机 的 标 ? 























拟 到 现实 迁移 (Rusu et al., 2016b)， 这 是 一 个 普 适 的 框架 ， 
中 ， 从 而 迁移 到 新 的 任务 上 ， 它 以 一 种 组 合式 但 是 简 
当今 的 计算 框架 利用 离散 的 基于 二 值 
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此 在 某 和 





侍 型 ， 而 与 模拟 环境 中 的 类 似 。 渐 进 网 络 (Rusu et al., 2016a) 也 可 以 上 
重复 利用 任何 低级 视觉 特 行 
单 的 方法 来 构建 复杂 技能 。 

FP 程度 上 ， 我 们 应 当 始 终 承 




















运算 的 计算 过 程 ， 
认 模 拟 和 现实 世界 的 差异 。 这 是 因为 后 竹 
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导 到 一 些 预 训练 模型 也 总 是 




















环境 中 用 的 。 如 果 模 型 在 一 定 程度 上 











只 要 学 习 算 法 不 足够 高 效 而 能 够 直接 像 人 脑 一 样 应 用 于 现实 世界 〈 或 者 即 














于 模 








E 到 高 级 策略 


在 时 间 和 空间 上 是 连续 的 (至 少 在 经 典 物 理 系统 中 )。 





















































现实 鸿沟 下 的 学 习 模 型 方法 论 ， 而 无 关于 模拟 器 本 身 有 多 精确 。 








7.8 ”大 规模 强化 学 习 





更 可 以 实现 )， 在 模拟 
对 现实 环境 的 泛 化 能 力 就 会 











更 好 ， 而 这 是 模拟 到 现实 迁移 算法 的 意义 。 换 名 话说， 模拟 到 现实 迁移 算法 提供 了 始终 考虑 到 在 






































如 前 面 小 节 中 所 讨 




















论 的 ， 强 化 学 习 在 现实 世界 的 应 用 目前 遭遇 到 的 妇 








u 








JE 





问题 ， 通 常 属于 现实 鸿沟 的 问题 范畴 。 然 而 ， 也 有 其 他 
拟 情况 下 ， 或 在 现实 世界 中 。 最 有 挑战 性 的 问题 之 一 是 强 


深度 强化 学 习 利用 了 深度 神经 网 络 的 通 
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0 延迟 观察 量 、 域 变换 等 











素 阻 止 了 强化 学 习 的 应 











i» 或 在 模 








化 学 习 的 可 扩展 性 〈Scalability)， 尽 管 
表达 能 力 ， 而 这 提出 了 大 规模 强化 学 习 的 挑战 





战 。 











我 们 可 以 首先 看 一 些 例子 。 在 像 掌 握 大 规模 实时 计算 机 游戏 的 应 月 
Craft) 和 
和 OpenAI Five (Berner et al., 2019) 方法 。 在 AlphaStar ! 
仿 学 习 中 的 行为 克隆 ) 都 被 用 了 
以 及 用 到 
在 整个 策略 中 实际 上 只 占 
在 的 示范 数据 中 学 习 和 使 




























































































小 部 分 。 在 AlphaStar ! 
预 训练 的 策略 ， 作 为 强 






































Hı 

















, 如 《星际 争 





高 级 网 络 结构 如 Scatter Connections, Transformer 和 Pointer 网 络 ， 这 使 
最 终 解 决 任务 的 关键 步骤 是 如 何 高 效 地 从 存 
化 学 习 智 能 体 的 初始 状态 ， 以 及 丸 

















合 来 自 联盟 中 不 同 智能 体 的 不 同 次 优 策略 。 在 OpenAI Five : 


架 被 用 












































AE 



































0 何 有 效 地 结 
我 博弈 〈Self-Play) 的 框 
于 训练 ， 而 非 PBT 框架 ,但 它 也 使 用 了 从 人 类 示范 中 模仿 学 习 的 方法 。 上 述 事实 说 明 , 在 


35; IL) CStar- 


(JJ9$ 2) (Dota), DeepMind 和 OpenAI 的 团队 分 别提 出 了 AlphaStar (Vinyals et al., 2019) 
， 深 度 强化 学 习 和 监 
个 基于 族群 的 训练 (Population-Based Training, PBT) 框架 中 ， 
得 深度 强 


B5 Chea, $ 


化 学 习 











多 数 情况 下 ， 当 前 的 深度 强化 学 习 算法 本 身 对 于 完美 地 从 端 到 端 去 解决 一 个 大 规模 任务 可 能 仍旧 















































是 不 足够 有 效 且 高 效 的 。 一 些 其 他 技术 如 模仿 学 习 等 通 
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比 外 ,并行 训练 框架 也 常 于 解决 大 规模 问题 。 举 例 来 说 , 在 解决 现实 











常 需要 被 用 来 解决 这 些 大 规模 问题 。 
机 器 人 学 习 的 算法 QT- 
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Opt (Kalashnikov et al., 2018) 中 ,为 了 实现 并 行 的 机 器 人 采样 , 它 应 用 了 一 个 包含 在 线 和 离线 数据 的 
经 验 回放 缓存 ， 以 及 分 布 式 训 练 工作 者 来 高 效 地 从 绥 存 数据 中 学 习 。 一 个 分 布 式 或 并 行 的 采样 和 
训练 框架 对 于 解决 这 类 大 规模 问题 很 关键 , 尤其 是 对 高 维 的 状态 和 动作 空间 。 文献 (Espeholt et al., 
2018) 提出 了 重要 性 加 权 的 行动 者 -学 习 者 结构 (Importance Weighted Actor-Learner Architecture, 
IMPALA) ， 而 文献 (Espeholt et al., 2019) 提出 了 可 扩展 高 效 深度 强化 学 习 (Scalable, Efficient 
Deep-RL, SEED) 来 实现 大 规模 分 布 式 强 化 学 习 。 另 外 ， 强 化 学 习 的 分 布 式 框架 通常 与 不 同 计算 
设备 (比如 CPU 和 GPU) 间 的 平衡 有 关 ， 如 第 18 章 中 所 讨论 的 。 在 强化 学 习 算 法 方面 ， 异步 优 
势 Actor-Critic (Asynchronous Advantage Actor-Critic, A3C) (Mnih et al., 2016)、 分 布 式 近 端 策略 
优化 (Distributed Proximal Policy Optimizaion, DPPO) (Heess et al., 2017). 4342247 4 rk DON 
(Recurrent Peplay Distributed DON, R2D2) (Kapturowski et al., 2019) 等 算法 在 近年 来 被 提出 ， 来 
更 好 地 支持 强化 学 习 中 的 并 行 采样 和 训练 。 更 多 关于 强化 学 习 中 并 行 计算 的 内 容 在 第 12 章 中 有 
所 介绍 。 
































































































































79 ”其 他 挑战 


除了 上 面 提 到 的 (深度 ) 强化 学 习 中 的 挑战 ， 也 有 一 些 其 他 挑战 ， 比 如 深度 强化 学 习 的 可 解 
释 性 (Madumal et al., 2019)、 强 化 学 习 应 用 的 安全 性 问题 (Berkenkamp et al., 2017; Garcia et al., 
2015)、 相 关 理 论 中 复杂 度 证 明 (Koenig et al., 1993; Lattimore et al., 2013) 中 的 困难 、 强 化 学 习 算 
法 的 效率 (Jin et al., 2018) 和 收敛 性 质 (Papavassiliou et aL, 1999)， 以 及 理解 清楚 强化 学 习 方 法 在 整 
个 人 工 智能 中 的 作用 和 角色 等 。 这 些 内 容 超 出 本 书 范畴 ， 有 兴趣 的 读者 可 以 自行 探索 这 些 领域 的 
前 沿 。 
在 本 章 最 后 , 我 们 引用 Richard Sutton? 的 一 些 话 ,“ 我 们 从 这 些 痛苦 的 教训 中 应 当 学 到 的 一 点 
是 通用 型 (General Purpose) 模型 的 力量 ， 即 那些 能 够 随 着 计算 能 力 提 升 而 不 断 扩展 的 方法 ， 它 
们 甚至 到 极其 巨大 的 计算 量 时 也 能 工作 。 有 两 个 看 起 来 能 够 以 这 种 方式 任意 扩展 的 方法 是 搜索 和 
学 习 。 ”这些 话 基于 这 样 的 观察 ， 即 在 计算 机 象棋 或 计算 机 围棋 ， 以 及 像 语音 识别 和 计算 机 视觉 
等 领域 上 的 以 往 成 功 ， 一 般 的 统计 性 方法 (如 神经 网 络 ) 胜 过 了 基于 人 类 知识 的 方法 。 因 此 ， 智 
能 系统 中 的 租 入 式 知 识 可 能 只 能 在 较 短 时 间 内 满足 研究 人 员 , 而 在 长 期 阻碍 了 通用 人 工 智能 的 整 
体 发 展 过 程 。“ 第 二 个 从 痛苦 的 教训 中 学 到 的 东西 是 大 脑 中 实际 的 内 容 是 极其 复杂 的 ， 且 这 种 复 
杂 性 是 不 可 更 改 的 ; 我 们 应 当 停 止 寻找 简单 的 方式 来 考虑 大 脑 中 的 内 容 ， 比 如 用 简 答 的 方式 考虑 
空间 、 物 体 、 多 个 智能 体 或 对 称 性 。 所 有 的 这 些 都 是 任意 的 、 本 质 上 复杂 的 外 在 环境 的 部 分 。 它 
们 不 是 我 们 应 当 肉 入 的 东西 ， 因 为 它们 的 复杂 度 是 无 穷 的 ; 相反 ， 我 们 应 当 只 构建 元 方法 来 找到 
和 采集 这 种 任意 的 复杂 度 。” 这 人 句 话 阐释 了 提出 元 方法 来 自然 地 处 理 世 界 的 复杂 度 的 重要 性 ， 而 
非 使 用 人 为 构建 的 、 有 具体 用 途 的 、 相 对 简单 的 认 知 结构 和 决策 机 制 。 







































































































































































































































































2Richard S. Sutton. “The Bitter Lesson.”March 13, 2019. 
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] 所 知 ， 强 化 学 习 ， 尤 
其 解决 一 个 不 是 
然而 ， 人 类 可 以 用 少 得 多 的 时 间 条 
田地 设计 强化 学 习 算法 本 身 ， 我 们 实际 上 可 以 让 
示范 (Expert Demonstrations)。 这 些 专家 示范 依据 先 验 知识 而 对 
高 见 可 以 通过 一 个 适当 的 学 习 过 程 而 被 提取 或 转移 至 
示范 中 学 习 的 任务 被 称 为 模仿 学 习 〈Imitation Learning, IL), 
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fF 本 来 解决 这 些 任务 。 为 了 改进 强化 学 习 的 算法 效率 ， 除 了 通 
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为 它 可 以 利用 有 标签 数据 。 因 上 
被 融合 到 智能 体 的 学 习 过 程 中 来 改进 它 的 学 习 效率 。 
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本 章 中 ， 我 们 将 介绍 不 同 的 使 用 示范 进行 策略 学 习 的 方法 。 图 8.1 是 对 模仿 学 习 中 各 个 类 别 
方法 的 概览 。 我 们 将 在 后 续 小 节 中 详细 介绍 各 种 模仿 学 习 方法 ， 并 将 它们 总 结 成 几 个 主要 的 类 
别 ， 包 括 (1) 行为 克隆 (Behavioral Cloning, BC), (2) 逆向 强化 学 习 〈Jnverse Reinforcement 
Learning, IRL), (3) 从 观察 量 进行 模仿 学 习 (Imitation Learning from Observations，IfO,，( 一 些 
文献 (Sun et al., 2019b) 中 称 ILFO), (4) 概率 推理 ，(5) 其 他 方法 。BC 是 一 种 最 简单 和 直接 的 通 
过 监督 学 习 方式 利用 示范 数据 的 方法 ， 由 于 它 的 简便 性 而 被 广泛 使 用 并 作为 其 他 更 高 级 方法 的 基 
^i. IRL 对 于 某 些 应 用 情况 是 有 用 的 ， 比 如 难以 写 出 显 式 的 奖励 函数 (Explicit Reward Function) 
来 实现 在 不 同 的 目标 之 间 权 衡 的 情况 。 举 例 来 说 ， 对 于 一 个 基于 视觉 观察 量 的 自动 驾驶 车 辆 ， 多 
少 注意 力 应 当 被 分 配 到 处 理 不 同 的 反光 镜 上 ， 这 难以 通过 奖励 函数 工程 的 方式 来 定义 。IRL 是 一 
种 可 以 从 示范 数据 中 恢复 未 知 奖励 函数 的 方法 ， 从 而 促进 强化 学 习 过 程 。IfO 实际 上 解决 了 模仿 
学 习 的 一 个 缺陷 ， 即 它 通 常 要 求 每 个 状态 输入 都 伴 有 动作 标签 ， 而 这 种 方式 在 人 类 的 模仿 学 习 过 
程 中 也 是 经 常 发 生 的 。 从 概率 推理 的 角度 出 发 的 方法 包括 用 高 斯 混合 模型 回归 (Gaussian Mixture 
Model Regression) 或 高 斯 过 程 回 归 (Gaussian Process Regression) 来 表示 示范 数据 并 引导 动作 策 
略 ， 在 某 些 情况 下 这 是 比 深 度 神 经 网 络 更 高 效 的 替代 方法 。 也 有 一 些 其 他 方法 ， 比 如 对 离线 策略 
COff-Policy) 强化 学 习 直接 将 示范 数据 送 入 经 验 回 放 缓 存 (Replay Buffer) 等 。 在 介绍 了 不 同 模仿 
学 习 方 法 的 基本 类 别 后 ， 我 们 将 讨论 模仿 学 习 和 强化 学 习 的 关系 ， 比 如 将 模拟 学 习 用 作 强 化 学 习 
的 初始 化 ， 来 提高 强化 学 习 的 效率 。 最 终 ， 我 们 将 介绍 一 些 其 他 的 伴随 强化 学 习 的 具体 模仿 学 习 
方法 ， 它 们 可 能 是 之 前 一 些 概念 和 方法 的 组 合 ， 或 者 我 们 之 前 总 结 过 的 方法 类 别 之 外 的 方法 ， 如 
图 8.1 所 总 结 的 。 
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Learning, IL) 


概率 推理 (Probabilistic 
Inference ) 

无 模型 (Model-free ) 
奖励 函数 工程 生成 对 抗 (Generative 

(Reward-Engineering ) Adversarial ) 方法 

















逆向 强化 学 习 (Inverse 
Reinforcement Learning , IRL) 


从 观察 量 进行 模仿 学 习 (Imitation 
Learning from Observation , IfO 






示 行为 克隆 (Behavioral 
基于 模型 (Model-based ) 


反 向 动态 模型 正 向 动态 模型 
(Inverse Dynamics Model ) (Forward Dynamics Model) 


















从 观察 量 进行 行为 克隆 从 观察 量 模仿 潜在 策略 时 间 对 比 网 络 生成 对 抗 模仿 学 习 最 大 炳 逆向 强化 学 习 DAGGER 等 
(Behavioral Cloning from (Imitating Latent Policies (Time-contrastive (Generative Adversarial (Maximum Entropy IRL. ) 等 
Observation , BCO) & from Observation , ILPO) 等 Networks, TCN) 等 Imitation Learning , GAIL) 等 


图 8.1 模仿 学 习 算法 概览 








模仿 学 习 的 概念 可 以 用 学 徒 学 习 的 形式 (Abbeel et al., 2004) REX: 按照 一 个 未 知 的 奖励 函 
Ti r(s, a), 学 习 者 找到 一 个 策略 能够 表现 得 和 专家 策略 ne 相当。 我 们 定义 一 个 策略 x E M A d 
]3& (Occupancy) 的 度量 or € D : Sx A> RW: ps (s, a) = n(a|s) ey pS = s|m) (Puterman, 
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样 一 个 策略 ; 





其 中 wy 是 一 个 pi 和 pm 之 间 的 距离 度量 , 而 AH (r) 是 一 个 有 权衡 
这 个 正则 化 项 可 以 定义 为 策略 r 的 7- 折扣 因果 Causal Entropy): H (7) E 
略 采样 得 到 的 {(s, a)) 分 布 和 示范 数据 ! 


仿 学 习 的 整体 








目标 就 是 增加 从 当 


î = arg min v" (pr 
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时 考虑 到 策略 参数 上 的 一 些 限制 。 
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如 果 示 范 数据 
示范 的 模仿 学 习 可 以 
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范 数据 D 通常 包含 配对 的 状态 和 动作 : D = ((s;i,a)i =1,---,N}, J 
小 而 指标 i 表示 s; 和 a; 是 在 同一 个 时 间 步 的 。 在 满足 MDP 假设 的 情况 下 《〈 即 最 优 动人 
可 以 被 打 乱 。 考 虑 强化 学 习 设 定 下 ， 有 一 个 以 0 参数 





于 当前 状态 )， 状 态 -动作 对 的 顺序 在 训练 ， 


化 和 s 为 输入 状态 的 初始 策 


D = {(s:,a;)|i = 1,--- QN) 





一 些 随 机 性 策略 re(ils) 的 具体 形式 ， 比 如 高 斯 策略 等 ， 可 以 用 


行为 克隆 方法 

了 相应 标签 的 话 〈 比 如 ， 对 于 给 定 状态 的 一 个 好 的 动作 可 以 被 看 作 一 个 标签 )， 
自然 地 被 看 作 是 一 个 监督 学 习 任务 。 在 强化 学 习 的 情况 下 ， 有 标签 的 示 
其 中 N 是 示范 数据 集 的 大 
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来 训练 这 个 策 
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2014)， 这 是 一 个 用 当前 策略 估计 的 状态 和 动作 的 联合 分 布 。 由 于 AD 的 一 一 对 应 关系 ， 模 仿 


学 习 的 问题 等 价 于 pr(s,a) 和 pz, (s, a) 之 间 的 一 个 匹配 问题 。 模 仿 学 习 的 一 个 普遍 目标 是 学 习 这 





(8.1) 


FA 的 正则 化 项 。 举 例 来 说 ， 


[一 log x(s,a)]。 模 

















分 布 的 相似 度 ， 同 
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生动 作为 mols) RIA EZA 
略 ， 其 目标 如 下 : 
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这 个 使 用 监督 学 习 直接 模仿 专家 示范 的 方法 在 文献 
8.2.1 行为 克隆 方法 的 挑战 


。 协 变量 漂移 〈Covariate Shift): 尽管 模仿 学 习 可 以 对 与 示范 数据 集 〈 用 于 训练 策略 ) 相似 的 
样本 有 较 好 的 表现 ， 对 它 在 训练 过 程 中 未 见 过 的 样本 可 能 会 有 较 差 的 泛 化 表现 ， 因 为 示范 
集中 只 能 包含 有 限 的 样本 。 举 例 来 说 ， 
能 跟 训 练 中 的 样本 来 自 不 同 的 群集 (Cluster), kein, f 
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如 果 数 据 分 布 是 多 模式 的 ， 测 试 ， 





成 的 示范 数据 集 


(8.2) 


参数 化 技巧 来 处 理 : 


(8.3) 


称 为 行为 克隆 (Behavioral Cloning, BC). 














的 新 样本 可 




















实践 中 将 一 个 不 同 猫 的 分 类 器 用 了 
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区 分 狗 的 种 类 。 由 于 BC 方法 将 决策 问题 归结 为 一 个 监督 学 习 问 题 ， 机 器 学 习 中 ， 众 所 周知 
的 协 变量 漂移 (Ross et al., 2010) 的 问题 可 能 使 通过 监督 学 习 方 法 学 得 的 策略 很 脆弱 ， 而 这 
对 BC 方法 是 一 个 挑战 。 图 8.2 进一步 前 释 了 BC 中 的 协 变量 漂移 。 





















































测试 样本 





训练 样本 



































真实 值 
图 82 ， 协 变量 漂移 ， 所 学 的 函数 ( 虚线 ) 对 训练 样本 可 以 很 好 地 拟 合 ( 交叉 符号 )， 但 是 对 测试 
样本 点 符号 ) 有 很 大 的 预测 偏 aro 线 是 真实 供 


















































合 误 差 (Compounding Errors): BC 方法 在 很 大 程度 上 受 复 合 误差 的 影响 ， 这 是 一 种 小 
误差 可 以 随时 间 累 积 而 最 终 导致 显著 不 同 的 状态 分 布 (Ross et al., 2011) 的 现象 。 强 化 学 习 
任务 的 MDP 性 质 是 导致 复合 误差 的 主要 因素 ， 即 连续 误差 的 放大 效应 。 而 在 BC 方法 中 ， 
实际 上 在 每 一 个 时 间 步 上 产生 的 误差 主要 可 能 是 由 上 面 所 述 的 协 变量 漂移 所 造成 的 。 图 8.3 
展示 了 复合 误差 。 












































在 随后 (7-t) 时 间 步 内 误差 








图 83 在 一 个 连续 决策 任务 中 ， 复 合 误 差 沿 着 当前 策略 选择 的 轨迹 逐渐 增加 

















8.2.2 ”数据 集聚 合 


的 从 示范 中 模仿 学 习 的 算法 , 它 是 一 种 无 悔 的 (No-Regret) EREA. 根据 先前 的 训练 迭代 过 程 ， 











数据 集聚 合 (Dataset Aggregation，DAgger) (Ross et al., 2011) 是 一 种 更 先进 的 基于 BC 方法 





























它 主动 选择 策略 ， 在 随后 过 程 中 有 更 大 几率 遇 到 示范 样本 ， 这 使 得 DAgger 成 为 一 种 更 有 用 且 高 
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效 的 在 线 模仿 学 习 方 法 ， 可 以 应 用 于 像 强化 学 习 中 的 连续 预测 问题 。 示 范 数据 集 























D 会 在 每 个 时 








间 步 ;连续 地 聚合 新 的 数据 集 Di， 这 些 数 据 集 包 含 当前 策略 在 整个 模仿 学 习 过 程 中 遇 到 的 状态 








和 相应 的 专家 动作 。 因 此 ，DAgger 同样 有 一 个 缺陷 ， 即 它 需 要 不 断 地 与 专家 交互 ， 





而 这 在 现实 应 

















用 中 通常 是 一 种 苛求 。DAgger 的 伪 代 码 如 算法 8.29 所 示 ， 其 中 t 是 专家 策略 ，ff 
时 对 策略 软 更 新 (Soft-Update 〉 的 参数 。 





算法 8.29 DAgger 


J Bi 是 在 迭代 i 





1: HUE D + 

2: 初始 化 策略 f, 7958 NAA 
3: fori — 1,2,---, N do 
4: 7i € Bin* + (1— Bim 

H mi 采样 几 个 工 步 的 轨迹 

得 到 由 m 访问 的 策略 和 专家 给 出 的 动作 组 成 的 数据 集 Pi = {(s, 7*(s))} 
聚合 数据 集 : D DUD; 

在 DD 上 训练 策略 tia 

9: end for 

10: 返回 策略 Nyi 





TI HERR 




















rae 





= 














OOS gw 











8.2.3 Variational Dropout 














FPR E A PZ CE EE HUI ARIF 8: HF]. Variational Dropout (B 








lau et al., 2018), 























RË BC 方法 中 完全 克隆 专家 示范 的 行为 。 在 这 个 方法 中 ,使 用 示范 数据 集 预 让 
得 到 的 权重 被 参数 化 为 高 斯 分 布 ， 并 用 一 个 确定 的 方差 阔 值 来 进行 高 斯 Dropout, 



















































































性 ， 因 而 是 一 种 使 用 模仿 学 习 来 初始 化 强化 学 习 的 有 用 技巧 。 











8.2.4 ”行为 克隆 的 其 他 方法 


























| 练 ( 模 仿 学 习 ) 
然后 用 来 初始 























化 强化 学 习 策 略 。 对 于 模仿 学 习 的 Variational Dropout 方法 (Molchanov et al., 2017) 可 以 被 看 作 一 
种 相 比 于 在 预 训练 的 权重 中 加 入 噪声 来 说 更 高 级 的 泛 化 方法 ， 它 可 以 减少 对 噪声 大 小 选择 的 敏感 








行为 克隆 方法 也 包含 了 其 他 一 些 概念 。 比 如 ， 一 些 方法 提供 了 在 一 个 任务 中 将 示范 数据 泛 





N 


化 到 更 一 般 情 形 的 方法 ， 比 如 动态 运动 基 元 (Dynamic Movement Primitives, DM 
































P) (Pastor et al., 

















2009) 法 ， 它 使 用 一 系列 微分 方程 (Differential Equations) 来 表示 任何 记录 过 的 运动 。DMP 中 


























的 微分 方程 通常 包含 可 调整 的 权重 ， 以 及 非 线 性 函数 来 生成 任意 复杂 运动 。 因 出 


















































相 比 于 “ 黑 盒 ”深度 学 习 方 法 ，DMP 更 像 是 一 种 解析 形式 的 解决 方法 。 此 外 ， 有 一 种 单 样 本 的 


























(One-Shot) 模仿 学 习 方 法 (Duan et al., 2017) 使 用 对 示范 数据 的 柔性 注意 力 (Soft 





























模型 泛 化 到 在 训练 数据 中 未 见 过 的 情景 。 它 是 一 种 元 学 习 (Meta-Learning) 的 方法 ， 在 多 个 任务 











在 行为 克隆 











Attention ) 来 将 









































将 一 个 任务 的 一 个 示范 映射 到 一 个 有 效 的 策略 上 。 相 关 的 方法 不 限于 此 , 在 这 











有 不 做 过 多 介绍 。 
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8.3. 送 向 强化 学 习 方法 





8.3 ”逆向 强化 学 习 方 法 





8.3.1 简介 


另 一 种 主要 的 模仿 学 习 方法 基于 
et al., 2000; Russell, 1998)。IRL 可 以 归 
Function) 的 问题 


中 交 
T 
































Sos moe 

















结 为 解决 从 观察 到 的 最 优 行为 ! 
， 这 些 最 优 行为 也 可 以 表示 为 专家 策略 rp。 基于 



























































以 下 方式 选择 R*: 


Tong 的 单 步 选 择 尽 可 能 产生 更 大 损失 。 对 于 所 有 满足 |R(s)| € Rmax, Vs 的 奖励 函 
vg d (s, az) 一 Eo 5 (s,a)) 














其 中 ag = mE(s) 或 ag ~ n(.|s) 是 专家 (最 优 的 ) 动作 。 基 于 























比如 操控 


个 直升机 (Abbeel et al., 2004) VAT 











| (Finn et al., 2016b). IRL 








Russell, 1998) 企图 从 观察 到 的 最 优 行为 ， 比 如 专家 示范 中 提取 一 个 奖励 函数 ， 但 
可 能 不 是 唯一 


Entropy) 正则 














逆向 强化 学 习 CInverse Reinforcement Learning, IRL) (Ng 
提取 奖励 函数 (Reward 
IRL 的 方法 反复 地 在 两 个 过 程 
断 一 个 隐藏 的 奖励 或 代价 〈Cost) 函数 ， 另 一 个 是 使 用 强化 学 习 基 
习 一 个 模仿 策略 。IRL 选择 奖励 函数 丸 来 最 优化 策略 ， 并 




















日 使 得 任何 脱离 






































数 R, IRL 用 








(8.4) 


IRL 的 技术 已 经 被 用 于 许多 任务 ， 
(Ng et al., 2000; 
是 这 个 奖励 函数 




















的 《在 之 后 有 所 讨论 








). IRL 中 





qu 









































IRL 可 以 表示 为 以 下 两 个 步 又 : 


这 构成 了 RLoIRL(Gr) 策略 学 习 架 构 。 
和 强化 学 习 策 略 间 的 奖励 值 差 异 ， 并 日 











IRL(zg) = arg max Es, [R(s,a)] — RL(R) 








RL(R) 








E [R(s, a)] 





= max H(n(.|s)) + 
































型 的 方法 是 使 用 最 大 因果 (Maximum Causal 
45. EKHI (Maximum Entropy, MaxEnt) IRL (Ziebart et al., 2010) 方法 。 





MaxEnt 


(8.5) 


(8.6) 


第 一 个 式 子 IRL (tg) 学 习 一 个 奖励 函数 来 最 大 化 专家 策略 
IF Q 值 是 对 奖励 的 估计 ， 它 可 以 被 式 (8.4) EV. 8 — 


个 式 子 RL(R) EMGIENI 6 (Entropy-Regularized) 正 向 强化 学 习 ， 而 其 奖励 函数 尺 是 第 一 个 式 子 











FAH x BITS 五 (x(-|s)) 是 给 定 状态 下 的 策 
关于 随机 变量 X 的 分 布 p(X) 的 香农 信 ， 








EA 4) f PERS ERR o 











定义 8.1 一 个 满足 p 分 布 的 离散 随机 变量 X 48 887 


对 于 强化 学 习 中 随机 策略 的 1 











M(X) = — >》 p(X) log p(X) 


XEX 


p(x) [— log p(X)] = 





IR EE E JU BOSE AT I DR PS Ze TE o 


青 况 ， 表 示 动 作 分 布 的 随机 变量 通常 排列 成 一 个 与 动作 空间 维 





(8.7) 





数 
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$83 模仿 学 习 














相同 的 矢量 。 








常 | 





j 的 分 布 有 对 











高 斯 分 布 和 类 别 分 布 ， 














u 





Se die TTA Ze AR HT ALY 











代价 函数 c(s,a) = —R(s,a) 也 很 常见 ， 它 在 强化 学 习 的 过 程 中 被 最 小 化 : 








其 中 五 (r) = 




















RL(c) = arg min — H (x) + 





i. [c(s, a)] 

















把 上 式 代 入 IRL 公式 (8.5) 中 ， 我 们 可 以 将 IRL 的 目标 表示 成 max-min 的 形式 ， 它 企图 在 最 


(8.8) 


gz-[ 一 logr(als)] 是 策略 r AIR. 4 Rr PRL c(s, a) 常用 作 当 前 策略 r 的 分 布 和 示范 


A8 S VA) AAA A Et. (or) 可 以 被 视 作 实现 最 优 解 的 唯 


性 的 正则 化 项 。 



























































以 及 进行 策略 m 的 











(8.9) 





KAI TE DU] EL ELS BAA 21— PAS. s 和 动作 a 的 代价 函数 c(s, a), 
学 习 。 
max(min 一 | 一 logr(als)] + E; [c(s, a)]) — Em [c(s, a)] 
其 中 m 表示 生成 专家 示范 的 专家 策略 ， 而 x 是 强化 学 习 过 程 训 练 的 策略 。 所 学 的 代价 函数 将 给 




















EZR MSF} CAC Ten BP A TT es HAE SR BHR BIST ARS o 


8.3.2 


逆向 强化 学 习 方 法 的 挑战 


。 奖 励 函 数 的 非 唯一 性 或 奖励 歧义 (Reward Ambiguity): IRL 的 函数 搜索 是 病态 的 (ll-Posed)， 


因为 示范 行为 
1999) 的 概念 ， 
下 奖励 变换 之 


最 优 集 略 对 任何 函数 $ : S 一 R 保持 不 变 。 


























可 以 
这 个 概念 描述 了 
F: 





























f(s, a, s^) = r(s, a, s^) + yels”) = o(s), 





Ll 





多 个 奖励 或 代价 函数 导致 。 它 始 了 
类 能 保持 最 优 策略 的 奖励 函数 变换 。 主 要 的 结果 是 ， 在 以 





AS ih YI (Reward Shaping) (Ng etal., 








(8.10) 

















ANT 























] 示 范 数据 通过 IRL 方法 学 到 的 奖励 函数 ， 























是 不 能 消除 上 面 一 类 变换 下 奖励 函数 之 间 分 歧 的 。 
因此 ， 我 们 需要 对 奖励 或 者 策略 施加 限制 来 保证 示范 行为 最 优 解 的 唯一 性 。 举 例 来 说 ， 奖 
励 函 数 通常 被 定义 为 一 个 状态 特征 的 线性 组 合 (Abbeel et al., 2004; Ng et al., 2000) 或 凸 的 组 




















fr (Convex Combination) (Syed et al., 2008). PTZ BI S Wee t9 [Bt Bt ECTS ERAK (Ziebart et al., 























2008) RA ATA RAG (Ziebart et al., 2010) 规则 。 然 而 ， 这 些 显 式 的 限制 对 所 提出 方法 (Ho 


et al., 2016) 的 


较 大 的 计算 代 
而 ， 在 推断 出 
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FIER 











j 性 有 一 定 潜在 限制 。 








通 / 














fft: IRL 可 以 在 

















般 强 化 学 习 过 程 中 通过 示范 和 交互 学 到 一 个 更 好 的 策略 。 然 

















的 奖励 函数 下 ， 使 ) 

















强化 学 习 来 优化 策略 要 求 智能 体 与 它 的 环境 交互 ， 这 从 
时 间 和 安全 性 的 角度 考虑 都 可 能 是 要 付出 较 大 代价 的 。 此 外 ，IRL 的 步骤 主要 要 3 
励 函 数 (Abbeel et al., 2004; Ziebart et al., 2008) 的 内 循环 中 解决 一 个 MDP 问 














智能 体 





8.3. 送 向 强化 学 习 方法 





题 ， 而 这 从 计算 的 角度 也 可 能 是 有 极 大 消耗 的 。 然 而 ， 近 来 有 一 些 方法 被 提出 ， 以 减轻 这 
个 要 求 (Finn et al., 2016b; Ho et al., 2016)。 其 中 一 种 方法 称 为 生成 对 抗 模仿 学 习 (Generative 
Adversarial Imitation Learning, GAIL) (Ho et al., 2016). 











8.3.3 生成 对 抗 模 仿 学 习 


生成 对 抗 模仿 学 习 (Generative Adversarial Imitation Learning, GAIL) (Ho et al., 2016) 采用 了 
生产 对 抗 网 络 (Generative Adversarial Networks, GANs) (Goodfellow et al., 2014) 中 的 生成 对 抗 方 
法 。 相 关 算 法 可 以 被 想 成 是 企图 引入 一 个 对 模仿 者 的 状态 -动作 占用 率 Occupancy) 的 度量 ， 使 
之 与 示范 者 的 相关 特性 类 似 。 它 使 用 一 个 GAN 中 的 辨别 器 (Discriminator) 来 给 出 基于 示范 数 
据 的 动作 -价值 (Action Value) 函数 估计 。 对 于 一 般 基 于 动作 价值 函数 的 强化 学 习 过 程 来 说 ， 动 
作 - 价 值 可 以 通过 一 种 生成 式 方法 来 从 示范 中 得 到 : 































































































Q(s, a) = ET; log( Da (s, a))], (8.11) 











其 中 T; ARKAA i 时 探索 的 样本 集合 ， 而 Do (s, a) 是 来 自 辨别 器 的 输出 值 Du, (s, a), HF 
别 器 的 参数 为 wiy1。wit1 表示 Q 值 是 在 更 新 了 一 步 辨别 器 的 参数 过 后 再 估计 的 ， 因 此 迭代 次 数 
是 i 十 1。 辨 别 器 的 损失 函数 定义 为 一 般 形式 : 

































































Loss = Ez; [Vw log(D,(s,a))| + Er; [Vo log(1 — D.(s, a))] (8.12) 














其 中 Tj, Te 分 别 是 来 自 探 索 和 专家 示范 的 样本 集合 ， 而 w 是 辨别 器 的 参数 。 图 8.4 展示 了 GAIL 
的 结构 。 





















GREP AS 
观测 数据 (状态 ) 





SYL 


(状态 , 动作 , 奖励 ) 
















状态 , 动作 








判别 器 








图 84 GAIL 的 结构 ， 改 编 自 文献 (Ho et al., 2016) 
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通过 GAIL 方法 ， 策 略 可 以 通过 由 示范 数据 泛 化 
的 方法 有 较 低 的 计算 消耗 。 它 也 不 需要 在 
Fh 实际 上 有 时 难以 得 到 的 交互 数 扩 
方法 可 以 进一步 推广 到 多 模 态 的 《Multi-Modal) 策略 来 从 多 任务 中 学 习 。 基 于 GAN 的 
目标 函数 《额外 的 潜在 指标 表示 不 同 的 任 

















这 











这 利 


多 模 态 模仿 学 习 (Hausman et al., 2017) 将 一 个 更 高 级 的 





78 
F 














Ei 





Ei 


f o 














务 ) 
模 态 策略 。 
D 
GAIL 的 目标 4 




















点 是 ， 我 们 绕 过 了 生成 奖励 的 ! 
于 所 有 的 (s, a) 将 收敛 到 0.5. 

















8.3.4 


如 上 所 述 ，GAIL 方法 无 法 从 示范 数 扩 


Ke 
Bot 


于 生成 对 抗 过 程 ， 











， 从 而 





民 据 文献 (Goodfellow et al., 2014)， 如 果 有 无 限 的 数据 和 无 











IE 








自动 划分 来 自 不 同 任务 的 示范 ， 





成 的 状态 -动作 分 布 应 当 完 全 匹配 示范 数 














BERAIR 


到 的 样本 进 
跟 专家 进行 交互 ， 而 像 DAgger 等 方法 可 


p 


























相 比 于 使 用 IRL 


ob a 
能 需要 


行 学 习 ， 而 



































并 以 模仿 学 习 的 方法 学 习 一 个 多 














民 的 计算 资源 ， 在 最 优 情 况 下 ， 以 
态 -动作 对 。 然 而 ， 这 种 方法 的 缺 



































EPK, BH 

















的 结构 来 优化 一 个 指 

















训练 的 最 优 辨 别 器 ! 
GAN-GCL 








提取 
方法 ( 























个 最 优 的 奖 


我 们 不 能 从 辨别 器 ! 








生成 对 抗 网 络 指导 性 代价 学 习 


居中 恢复 奖励 函数 。 一 个 类 似 的 工作 称 为 生成 对 抗 网 络 
性 代价 学 习 (Generative Adversarial Network Guided Cost Learning, GAN-GCL), 它 基于 GAN 
导 性 代价 学 习 (Guided Cost Learning, GCL) 方法 ， 以 此 来 从 使 月 
励 函 数 。 我 们 将 详细 介绍 该 方法 。 

LRT GCL 部 分 ) 是 基于 之 前 介绍 的 最 大 因果 


提取 奖励 函数 ， 因 为 D, (s, a) 对 

















日 示范 数 





H 




















K& c 18] 084455 2] FIERY, 





ES — "p 8 1E DU] 4; 2R RI SX (Markov Decision Process, MDP) . 1E WE MDP 对 








于 强化 学 习 的 目 
Reward ): 








7* = arg max 
T7 








Fs xe BA Hs 8 E WU Hh FZ 

















T 
Erur | o (r(So At) + H (al 


t=0 





这 是 源 自 式 (8.5) 的 月 
迹 分 布 满足 m" (a 





























Critic 算法 中 也 有 用 到 








H3 
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IRL 问题 可 以 被 型 





问题 : 
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LA REY 


实际 学 习 策 略 的 
s) x exp(Q^4(s,a)) (Ziebart et al., 2010)， 其 中 Q*4(S,, At) = 7r(9 Ae) + 
Es yt -t(r(sp, ap) + H(x(-|su)))] 表示 柔性 Q 函数 (Soft Q-Function), SERN 








个 


LA 














max 


trne log pe(7)]; 





0 


其 中 TE 是 提供 示范 的 专家 策略 ， 而 po(T) x p(So) IIT o P0 S41 1S, A)eY re (StA) 以 奖 


Bot. WW 


HATHA! (Expected Entropy-Regularized Discounted 


S:))) (8.13) 


, 


L| 
u 





8 最 优 策略 m*(a|s) 给 出 的 轨 








E Actor- 








如 下 一 个 极 大 似 然 估 计 CMaximum Likelihood Estimation, MLE) 


(8.14) 





8.3. 送 向 强化 学 习 方法 














ro(s, a) 的 参数 0 为 参数 ， 并 








依赖 MDP 的 初始 状态 分 布 和 


动态 变化 (或 称 状态 转移 )。po(7) 是 


示范 数据 以 轨迹 为 中 心 的 (Trajectory-Centric) 分 布 , 这 些 数据 是 从 以 状态 为 中 心 的 (State-Centric) 











TE 





得 来 的 ， 即 pe(r) ~ wg. AGED 
的 模型 polr) ox eXt=0 1'7e(St-Ae) (Ziebart et al., 2008) 。 参 数 
优化 参数 9。 与 之 前 的 过 程 类 似 ， 


























定性 转移 过 程 ， 




















我 们 在 这 里 可 以 引入 代价 函数 作为 累积 折扣 奖 














bu EL 











p(Sui|S;, Ap) = 1， 其 简化 为 一 个 基于 能 量 
化 的 奖励 函数 可 以 按照 上 面 的 目标 来 

















W (Cumulative 








Discounted Rewards) cg = — pan Yire(Si, A,) 的 负 值 ， 它 也 由 0 参数 化 。 那 么 MaxEnt IRL 可 以 


























看 作 是 使 用 玻 尔 
结果 ， 其 中 由 代价 函数 ce 给 出 的 














IT 








T 是 状态 - 动 
是 exp(—ce(7)) 对 所 有 








x 


符 








Z 
续 空间 的 情况 ， 准 确 


Z 的 精确 估计 只 适 




























































































曼 分 布 CBoltzmann Distribution) 在 以 轨迹 为 ， 


能 量 为 


pe(r) = zs exp(— 


Z 























(Sampling-Based) GCL 方法 。 

















Im 





GCL 使 用 
为 p(7)) 估计 Z, 并 采 
































0* = arg min 
D 


— arg min 
0 


— arg min 
0 








要 性 采样 CImportance Sampling) 来 以 一 个 新 
MaxEnt IRL 的 











ÉI: 











Erop [= log Po (r)] 








E. p[ce(7)] + log Z 











E. p[ce(7)] + log ( 




















困难 ， 因 为 通过 动 


























心 的 形式 下 对 示范 数据 建 模 的 








ce(7)), (8.15) 


EILDE, T colr) = 0, co(S Ar) 总 的 代价 函数 ， 配 分 函数 (Partition Function) 
合 环境 动态 变化 的 轨迹 的 
估计 配 分 函数 2 会 很 
于 小 规模 离散 情况 。 和 否则 我 们 需要 使 用 近似 估计 的 方法 ， 比 如 基于 也 





"nj, 














以 归 一 化 概率 。 对 于 大 规模 或 连 
态 规划 (Dynamic Programming) 对 
采样 的 


























了 


AN 














的 分 布 q(7)( 原 来 的 示范 数据 分 布 














(8.16) 
(8.17) 

ng [peint 
Eu ee Or J Ni 8.18 
[E iis 


























TESA QR 








得 到 的 , 而 





q(r^) 是 其 概率 。 因此 g 可 以 通过 最 小 化 g(7') M $ exp(—ce(r")) 











司 的 KL 散 度 来 优化 ， 从 而 更 新 9 以 学 习 g(r 











* : 
q = min 








文献 (Finn et al., 2016a) 提出 使 用 GAN 的 形式 来 
有 具体 形式 。 


j 一 个 分 布 去 拟 合 另 一 个 的 功能 : 





化 GCL， 与 GAIL 方法 类 似 但 是 有 不 同 的 


JER, GAN 中 的 辨别 器 也 可 以 实现 | 




















js lco(7)] + 





')， 其 等 价 表示 如 下 : 





Er~allog q(7)] 














解决 上 述 优化 问题 





p(T) 
p(t) + a(7) 





(8.19) 














， 它 使 用 GAN 的 结构 优 








(8.20) 
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我 们 可 以 在 这 里 将 








这 产生 了 GAN-GCL 方法 。 策 略 7 被 训练 
励 函 数 可 以 通过 优化 辨别 器 来 学 习 。 
赴 计 配 分 函数 的 。 如 果 达 到 了 最 优 情 况 ， 导 
— oL o Y r$ At) 来 得 到 最 优 奖励 函数 ， 而 最 优 策略 可 以 通 
F 除 直接 最 大 化 似 然 (Maximum Likelihood) 方法 外 的 方法 。 








决 MaxEnt IRL 问题 提供 了 一 利 








于 MaxEnt IRL 形式 的 GCL. 


z exp(—ee(r)) 





De(T) = 


z exp(—co(T)) + a(7) 






















































































8.3.5 ”对抗 性 逆向 强化 学 习 





由 于 上 




















而 介绍 的 GAN-GCL 是 以 轨迹 为 














(8.21) 


以 最 大 化 Ro(r) = log(1 一 De(r)) — log Do(r)， 从 而 奖 
策略 通过 更 新 采样 分 布 q(r) 来 学 习 ， 这 个 采样 分 布 是 用 来 
BP 么 我 们 可 以 用 所 学 的 最 优 的 代价 函数 c = — Ri (T) 








q* 得 到 。GAN-GCL 为 解 








过 7* = 














心 CTrajectory-Centric) HJ, 这 意味 着 完整 的 轨迹 需 











要 被 估计 ， 相 比 于 估计 

















单个 状态 动作 对 会 有 较 大 的 估计 方差 。 对 抗 怕 








FE 逆向 强化 学 习 (Adversarial 

















Inverse Reinforcement Learning, AIRL) (Fu et al., 2017) 直接 对 单个 状态 和 动作 进行 估计 : 











概率 值 的 归 





























exp(fols, a)) 





Poss exp( fo 





(s, a)) + n(a|s) 























激活 函数 来 保证 。 
als) = A*(s,a) 给 出 了 最 优 策 略 的 优势 函数 (Advantage Function) 。 
1 缠 的 奖励 函数 减 去 


(8.22) 


其 中 r(als) 是 待 更 新 的 采样 分 布 而 fo(s, a) 是 所 学 的 函数 。 配 分 函数 在 上 面 式 子 中 被 忽略 了 ， 而 
性 在 实践 中 可 以 由 Softmax 函数 或 者 Sigmoid 4j H 
优 情 况 下 ，f*(s,a) = log mr* 
然而 ， 优 势 函 数 是 一 个 高 度 


经 证 明 ， 在 最 








个 基线 值 的 结果 。 文 献 (Fu et al., 2017) 论证 说 














奖励 函数 从 环境 动态 的 变化 ， 
解 纠缠 (Disentangle) 以 得 到 奖励 函数 : 
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不 能 被 鲁 棒 地 恢复 








Doe.s(s,a,s’) = 





ex 


Hoe. AE, fase d 

















通过 AIRL 来 从 优势 函数 











P(fo,6(s, a, s')) 





exp( fo 


其 中 还 需要 对 ho 进行 额外 拟 合 。 


o(,@, $')) + m(als) 


Rn. fog 被 限制 为 一 个 奖励 拟 合 器 go 和 一 个 塑 形 (Shaping) 项 ha: 





fo, o (5, a, 5°) = go(s, a) + Yhes") — ho(s) 





(8.23) 


(8.24) 
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8.4 ”从 观察 量 进行 模仿 学 习 
































察 的 动作 的 情况 
无 法 单纯 地 通过 
在 Ito 相关 文献 ! 














些 帧 





























中 的 信 





经 常见 到 从 视频 ! 











大 





角度 来 看 待 模仿 学 习 。 





处 ， 但 是 ， 要 注意 这 一 小节 的 方法 是 在 IfO 的 范 
里 的 IfO 方法 与 其 他 类 别 的 方法 大 多 是 了 
重 于 解决 不 可 观测 动作 的 问题 。 
乎 都 不 能 用 了 
况 。 一 个 对 于 学 习 这 种 类 型 的 示范 数据 





























FF 


HA HR. 








之 前 提 到 的 算法 ， 











算法 从 恢复 出 来 的 状态 
2018a) 通过 学 习 


最 优 策略 。 












































Jo fel 








KAR 


] 拓 展 了 GAIL NEZ, H 
部 分 状态 特征 而 不 需要 示范 者 
似 地 ， 文 献 (Eysenbach et al., 2018) 18 HE aH 
化 策略 和 状态 轨迹 间 的 互 
只 从 观察 量 而 不 是 真实 状态 





恩 得 到 的 ， 但 人 类 














学 习 的 例子 。 
而 ， 这 一 小 节 所 介绍 的 


相 比 于 























人 体 方法 和 之 





























JL 





- 动 

















解决 





然而 ， 这 种 方法 的 性 能 极 大 地 依赖 于 
情况 则 很 可 能 失败 。 相 反 ， 文 献 (Merel et al., 2017) 提出 只 i 


FE 交 的 关系 ， 





的 想法 是 先 从 状态 ! 
EX} (State-Action Pairs) 中 进行 策略 学 习 。 比 如 ， 文 献 (Torabi et al., 
并 使 用 BC 算法 来 找到 











大 











为 它 是 从 另 一 个 角度 来 处 型 


首先 ， 从 观察 量 进行 模仿 学 习 〈Imitation Learning from Observation，IfO) 是 在 没 
进行 的 模仿 学 习 。IfO 的 一 个 例子 是 从 视频 中 学 习 ， 其 ! 
力 旧 能 够 从 视频 中 学 习 ， 

其 他 前 面 介绍 过 



































完整 可 观 














物体 的 真实 动作 值 是 
比如 模仿 动作 ， 因 此 ， 
的 方法 ，IfO 从 另 一 个 
前 介绍 的 方法 有 不 可 避免 的 重生 之 
孝 之 下 的 。 当 你 阅读 这 一 小 节 时 ， 应 当 记得 ， 这 
































只 包含 部 分 可 观测 或 不 可 观测 动作 
































通过 


























tH 












































Adaption) 方法 从 观察 量 








提取 特征 来 保 订 


学 习 。 比 如 
E 专 家 








恢复 动作 ， 再 采 ) 


个 状态 转移 〈State Transition) 的 动态 模型 来 恢复 动作 ， 
F 所 学 动态 模型 的 好 坏 ， 对 于 状态 转移 ， 
状态 〈 或 状态 的 特征 值 ) # 
4 通过 采集 运动 示范 数据 的 状态 来 学 习 控 制 策略 ， 展 示 了 只 需要 
的 具体 动作 对 对 抗 式 模仿 〈Adversarial Imitation) 也 是 足够 的 。 相 
各 应 该 可 以 控制 智能 体 到 达 哪 些 状 态 ， 
zi (Mutual Information) 来 仅仅 通过 状态 训练 策略 。 
， 文 献 (Stadie et al., 2017) 通过 域 自 适 应 

















(Experts) 和 新 手 (Novices) 在 


























的 示范 数据 的 情 
j 标 准 的 模仿 学 习 


























模仿 学 习 的 ， 




















有 噪声 的 
, 迹 来 学 




















K| 














而 可 通过 最 大 
也 有 一 些 其 他 研 


(Domain 




















下 。 然 而 ， 只 使 ) 
信息 都 被 忽略 了 。 


JAN? 








为 了 提供 Ito 方法 的 一 
型 (Model-Based) 方法 ; (2) 无 模型 (Model-Free) 方法 。 





方法 吻合 。 随 后 








8.4.1 ”基于 模型 方法 








类 似 于 基于 模型 的 强化 学 习 《〈 如 第 9 音 )， 如 果 环 境 模型 可 以 
寺 它 可 以 高 效 地 做 出 规划 。 








个 模型 可 能 对 学 习 过 程 有 利 ， 





个 清楚 的 # 


状态 或 状态 特征 在 训练 : 

















可 能 需要 大 量 的 环境 交互 ， 


同一 个 特征 空间 














K| 











为 任何 来 E 


MER 




































































的 一 种 主要 的 分 类 


匡 架 ， 我 们 把 文献 中 的 Ito 方法 总 结 为 两 大 类 : (1) 基于 模 
这 也 与 强化 学 习 ! 
献 中 的 算法 作为 例子 。 


， 我 们 讨论 每 一 类 方法 的 特点 ， 并 提出 相关 文 











K| 


























KM 














FE! 














过 基于 模型 方法 学 习 。 根 和 





模仿 的 是 一 系列 的 动作 而 非 单个 动作 ， 所 以 它 难 












































] 较 低 的 消耗 来 精确 





时 T 
fod, XX 























1 于 模仿 学 习 在 与 环境 交互 的 过 
E 以 避免 地 涉及 环境 的 动态 变化 ， 而 这 可 以 通 
中 不 同 的 动态 模型 类 型 ， 基 于 模型 的 IfO 方法 可 以 被 分 类 为 : (1) 逆向 
动态 模型 (Inverse Dynamics Models) 和 (2) 正 向 动态 模型 (Forward Dynamics Models). 
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逆向 动态 模型 ; 一 个 逆向 动态 模型 是 从 状态 转移 (055 Si41)} 到 动作 {Ar} 的 映射 (Hanna 
et aL, 2017)。 在 这 一 类 中 的 一 个 工作 如 文献 (Nair et al., 2017) 提出 的 方法 ， 它 通过 人 类 操作 绳子 
从 一 个 初始 状态 到 目标 状态 的 一 系列 图 像 ， 来 学 习 预 测 强 结 操作 中 的 一 系列 动作 ， 这 需要 学 习 如 
下 的 一 个 像素 级 〈Pixel-Level) 的 逆向 动态 模型 ; 









































As = Molli, I41) (8.25) 











以 上 面 的 任务 为 例 ， 其 中 A, 是 通过 逆向 动态 模型 M 以 输入 的 一 对 图 片 五 ,和 +1 所 预测 的 动作 ， 
模型 由 0 参数 化 ， 卷 积 神经 网 络 被 用 于 学 习 逆 向 动态 模型 。 机 器 人 通过 探索 策略 自动 地 收集 绳 结 
操作 的 样本 ， 收 集 到 的 样本 被 用 于 学 习 逆 向 动态 模型 ， 随 后 机 器 人 使 用 所 学 的 模型 和 来 自 人 类 示 
范 的 期 望 状态 进行 规划 。 学 到 的 逆向 动态 模型 M$ 实际 可 以 作为 策略 来 根据 期 望 帧 I8 选择 与 示 
范 相 似 的 动作 : 




































































































































































A; = Mg (it, 12,1) (8.26) 


另 一 个 工作 叫 作 增强 逆向 动态 建 模 〈Reinforced Inverse Dynamics Modeling, RIDM) (Pavse et al., 
2019)， 它 在 使 用 预定 义 的 探索 策略 所 收集 的 样本 进行 训练 的 基础 上 ， 使 用 一 个 增强 的 后 训练 
(Post-Training) 过 程 来 微调 所 学 的 逆向 动态 模型 。 如 上 所 述 ， 预 训练 的 逆向 动态 模型 被 看 作 是 强 
化 学 习 设 置 下 的 一 个 智能 体 策略 ， 这 时 可 以 用 一 个 稀 玻 奖励 函数 RR 来 基于 强化 学 习 对 这 个 策略 
进行 微调 : 


















































0* — arg nux R(S,, MY" (S,,88,4)) (8.27) 





















































其 中 MI 是 预 训练 模型 ， 在 这 里 通过 强化 学 习 的 方式 来 进行 微调 ， 微 调 目标 是 最 大 化 奖励 函数 
Ro 


























协 方差 矩阵 自 适 应 进化 策略 (Covariance Matrix Adaptation Evolution Strategy, CMA-ES) 或 
者 贝 叶 斯 优化 (Bayesian Optimization, BO) 方法 可 以 用 于 在 低 维 的 情况 下 优化 模型 。 然 而 ， 作 
者 假设 每 个 观察 量 转移 (Observation Transition) 都 可 以 通过 单个 动作 实现 。 为 了 消除 这 个 不 需要 
的 假设 ， 文 献 Pathak et al., 2018) 允许 智能 体 执行 多 个 动作 直到 它 与 下 一 个 示范 帧 足够 接近 。 

上 面 介 绍 的 算法 试图 对 每 个 示范 状态 使 用 逆向 动态 模型 从 而 实现 对 策略 的 恢复 。 从 观察 量 进 
行 行为 克隆 (Behavioral Cloning from Observation, BCO) 算法 由 文献 (Torabi et al., 2018a) 提出 ， 
这 个 算法 则 试图 使 用 完整 的 观察 量 -动作 对 〈Observation-Action Pair) 和 所 学 的 逆向 动态 模型 来 恢 
复 示 范 数据 集 ， 然 后 用 常规 模仿 学 习 的 形式 使 用 这 个 增强 后 的 示范 数据 集 来 学 习 策 略 ， 如 图 8.5 
所 示 。 
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从 观察 量 进行 行为 克隆 (Behavioral Cloning from Observation, BCO) N 











开始 
初始 化 策略 SE SEL) [ 将 数据 加 入 
T$ (Ad Te, Ar 






Te, An 


更 新 模型 


更 新 策略 
l Mj 


To 
















D demo 








纯 状态 示范 


图 8.5 ”从 观察 量 进行 行为 克隆 ( Behavioral Cloning from Observation, BCO ) 的 学 习 框架 ， 改 编 自 
文献 (Torabi et al., 2018a) 


P 




















文献 (Guo et al., 2019) 提出 使 用 一 个 基于 张 量 的 《TensorBased) 模型 来 推理 专家 状态 序列 相 
应 的 未 观测 动作 〈 即 一 个 Ito 问题 )， 如 图 8.6 所 示 。 智 能 体 的 策略 通过 一 个 结合 了 强化 学 习 和 模 
仿 学 习 的 混合 目标 来 优化 : 









































6° = argmin Lri (7(als;0)) — Elsy,sy nllo mo (M (Sf, S211)|S2)] (8.28) 


t+1 














其 中 La 是 常规 强化 学 习 的 损失 项 , CR r HO BBL. D 是 示范 数据 集 , 而 第 二 项 是 行为 克隆 
损失 函数 ， 用 于 最 大 化 基于 专家 状态 ss 和 逆向 动态 模型 M 预测 专家 动作 的 可 能 性 (Likelihood). 
文献 (Guo et al., 2019) 提出 一 种 结合 RIDM 和 BCO 的 方法 。 这 里 的 逆向 动态 模型 M 是 一 个 低 秩 
的 (Low-Rank) 张 量 模型 ， 而 非 像 上 面 介绍 的 其 他 方法 中 的 参数 化 (Parameterized) 模型 ， 它 在 
某 些 情况 下 比 深 度 神经 网 络 有 优势 。 类 似 于 RIDM, 这 个 方法 需要 提供 奖励 信号 (Reward Signals ) 
来 得 到 强化 学 习 损失 函数 。 



















































































更 新 动作 推理 模 型 M 


获得 专家 状态 动作 对 ($ â) 





专家 动作 排 理 





图 8.6 混合 强化 学 习 和 专家 状态 序列 的 学 习 框 架 ， 改 编 自 文献 (Guo et al., 2019) 


正 向 动态 模型 : 正 向 动态 模型 是 从 状态 -动作 对 {(54, Av) } 到 下 一 个 状态 {S141} 的 映射 。 一 
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(Action Inference) 模块 ， 





模块 根据 当前 状态 S, 和 潜在 动作 z 预测 下 一 











w* = arg min 


型 的 在 IfO 中 使 用 正 向 动态 模型 
from Observation, ILPO) (Edwards et al., 2018). ILPO 在 其 学 
(Latent Policy〉 网 络 和 动作 重 映射 (Action Remapping) 网络 。 
它 将 状态 S, 映射 到 一 个 潜在 动 




















这 是 对 于 潜在 动态 模块 Go 的 ， 而 


0* = arg max E 


是 对 于 潜在 策略 re(:|z) 而 言 的 ， 其 中 D 是 专家 示范 数据 集 。 
略 网 络 产生 
j 来 将 潜在 动作 关联 到 真实 动作 。 使 | 











然而 ， 由 于 潜在 策 
映射 网 络 被 / 


























Hr 


ilf 
习 过 程 中 很 高 














效 (Efficient)。 


8.4.2 ”无 模型 方法 











除了 使 用 所 学 动态 模型 进行 基于 模型 的 IfO 方法 ， 也 有 































































































4 的 方法 叫 作 从 观察 量 模仿 潜在 策略 (Imitating Latent Policies 
学 习 过 程 中 使 用 两 个 网 络 : 潜在 策略 
潜在 策略 网 络 包 括 一 个 动作 推理 
Æ (Latent Action) z， 而 一 个 正 向 动态 
个 状态 S441。 这 两 个 模块 的 更 新 规则 如 下 : 
bgs,ss, yn llGu (St. 2) — Sk l2] (8.29) 
2 
Se )~D | S 16(21S2)Gu(S?, z) — Sira | (8.30) 
2 
的 潜在 动作 可 能 并 不 是 真正 的 环境 动态 中 的 真实 动作 ， 动 作 重 













































































些 无 模型 fO 方法 ， 























主要 的 方法 类 别 , 即 不 使 用 模型 进行 学 习 。 对 了 











常规 强化 学 习 设 置 ， 
































































































































高 度 
的 情况 一 样 。 对 于 无 模型 IO 有 两 个 主要 的 方法 : (1) 生成 对 





j 潜 在 动作 不 需要 在 学 习 潜在 模型 和 潜在 策略 的 
与 环境 进行 交互 ， 而 动作 网 络 重 映射 只 需要 跟 环 境 交 互 有 限 的 次 数 ， 这 使 得 整个 算法 在 学 








这 属于 另 一 个 























复杂 的 动态 变化 , 模型 可 能 很 难 


学 习 , 这 与 在 












































抗 (Generative 











































































































Adversarial) 方法 和 (2) 奖励 函数 工程 (Reward Engineering) 方法 。 其 中 生成 对 抗 方 法 类 似 于 常 
规模 仿 学 习 中 的 ， 但 是 只 有 状态 作为 示范 。 
生成 对 抗 方 法 : 一 种 基本 的 生成 对 抗 IfO 的 框架 是 由 之 前 介绍 的 在 常规 模仿 学 习 设置 下 IRL. 
中 的 GAIL 方法 改进 的 。 辨 别 嚣 (Discriminator〉 只 判别 和 比较 当前 策略 探索 到 的 样本 的 状态 或 
专家 示范 数据 中 的 状态 ， 而 非 对 状态 -动作 对 进行 判别 ， 于 是 给 出 以 下 损失 函数 : 
Loss = Es~ Dp [Vw log(D..(s))] + Es~ De [Vo log(1 = Du(s))] (8.31) 
其 中 卫 是 用 当前 策略 探索 到 的 样本 集 ， 而 De 是 示范 数据 集 。 不 同 的 具体 算法 基于 以 上 有 不 同 的 
(体形 式 和 修正 方式 。 
举例 来 说 ， 文 献 (Merel et al., 2017) 发 展 了 一 个 GAIL 的 变 体 ， 它 只 使 用 部 分 可 观测 的 状态 特 

















V E 





征 而 不 使 ) 
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动作 来 给 人 类 提供 类 似 人 的 〈Human-Like) 运动 轨迹 ， 








通过 GAN 的 结 





构 。 它 类 似 于 


8.44 从 观察 量 进行 模仿 学 习 





基于 模型 的 Ito 中 的 RIDM 方法 和 混合 (Hybrid) 强化 学 习 方法 ， 























也 使 用 了 一 个 强化 学 习 模块 和 








一 个 模仿 学 习 模块 ， 但 是 以 一 种 层次 化 的 结构 使 用 的 。 强 化 学 习 模块 是 一 个 高 阶 的 《High-Level) 
控制 器 ， 它 基于 一 个 低 阶 的 (Low-Level) 控制 器 ， 这 个 低 阶 控制 器 使 用 BC 方法 来 采集 人 类 的 运 
































动 特征 。 状 态 和 动作 的 轨迹 在 一 个 随机 性 策略 + 和 环境 的 交互 中 被 采集 ， 这 对 应 于 GAN 结构 ! 


















































的 生成 器 (Generator)。 状 态 -动作 对 随后 被 转化 成 特征 >， 其 中 动作 可 能 被 除去 。 根 据 原文 所 述 ， 
示范 数据 和 采集 到 的 数据 被 假设 在 同一 个 特征 空间 (Feature Space) 下 。 示 范 或 生成 数据 由 辨别 
器 评估 来 得 到 这 个 数据 属于 示范 数据 的 概率 。 辨 别 器 的 输出 值 随后 被 用 作 奖 励 来 通过 强化 学 习 更 
























































新 模仿 策略 ， 类 似 于 GAIL 中 的 式 (8.12)。 如 果 学 习 多 种 行为 的 (Multi-Behavior) 策略 ， 那 么 可 


以 添加 一 个 额外 的 背景 变量 (Context Variable )。 这 个 辨别 器 的 损失 函数 可 以 写作 : 




















Loss = E, «p [Vu log( D, (2, c))] + Ezexse se ps [Vy log(1 — D,,(z°, c*))] (8.32) 
































ED, ifj c, c? 是 表示 不 同行 为 的 背景 变量 。 






























































其 中 z, 2° 是 s, 8° 的 编码 特征 ， 而 s, s* 分 别 来 自强 化 学 习 探索 得 到 的 数据 集 D 和 专家 示范 数据 





文献 (Henderson et al., 2018) 提出 的 OptionGAN 使 用 分 层 强 化 学 习 中 的 选项 框架 (Options 


Framework)， 从 而 基于 只 使 用 可 观测 状态 的 生成 对 抗 式 结 构 CGenerative Adversarial Architecture) 





来 恢复 奖励 -策略 的 联合 选项 (Joint Reward-Policy Options), wB 

















8.7 所 示 。 经 过 策略 分 解 (De- 


composition)， 它 不 仅 可 以 在 简单 的 任务 上 学 习 得 好 ， 而 且 对 于 复杂 的 连续 控制 任务 也 能 学 得 一 











个 基于 选项 的 一 般 策略 (A General Policy over Options). 























新 手 采集 样本 
(状态 , 动作 , 奖励) 





策略 优化 0 


Tag 
















选项 策略 
To 






策 咯 优化 n 


Te, 
































专家 && 新 手 
观测 数据 (状态 ) 


判别 器 0 


2 判别 器 
奖励 


图 8.7 OptionGAN 的 结构 ， 改 编 自 文献 (Henderson et al., 2018) 







混合 
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$83 模仿 学 习 





图 8.7 中 IO 方法 的 一 个 潜在 问题 是 ， 即 使 所 学 的 最 优 策 略 能 够 生成 一 个 与 专家 策略 非常 类 
似 的 状态 分 布 ， 不 意味 着 对 于 模仿 策略 和 专家 策略 的 所 有 状态 ， 它 相应 的 动作 都 是 完全 相同 的 。 
由 文献 (Torabi et al., 2019d) 提出 的 一 个 简单 例子 是 ， 在 一 个 环 状 的 〈Ring-Like) 环境 中 ， 两 个 智 
能 体 以 相同 的 速度 但 是 不 同 的 方向 移动 〈 即 一 个 为 顺 时 针 、 另 一 个 为 道 时 针 )， 这 将 导致 相同 的 
状态 分 布 ， 即 使 它们 的 行为 与 彼此 相反 〔 即 在 给 定 状态 下 有 不 同 的 动作 分 布 )。 

一 种 解决 上 述 动作 分 布 不 匹配 问题 的 方法 是 ， 给 辨别 器 输入 一 系列 状态 而 非 单 个 状态 ， 如 
文献 (Torabi et al., 2018b, 2019b) 所 提出 的 一 个 相似 算法 ， 它 只 是 将 辨别 器 的 输入 改 为 状态 转移 
{(S4, $,,1)) 而 非 单个 状态 。 这 时 辨别 器 的 损失 函数 将 变 为 










































































Ep[V., log( Do (St, St+1))] + Ep« [Vo log(1 — Du (St, St+1))] (8.33) 





其 中 状态 序列 在 实践 中 也 可 以 选择 长 度 大 于 2 的 。 

男 一 个 由 文献 (Torabi et al., 2019c) 提出 的 工作 使 用 本 体感 觉 〈Proprioceptive〉 特 征 而 非 观察 
到 的 图 像 作为 策略 的 状态 输入 ,来 在 强化 学 习 智能 体 中 构建 类 似 于 人 和 动物 的 基于 本 体感 觉 控 制 
(Proprioception-Based Control) 的 模型 。 由 于 本 体感 觉 特征 的 低 维 性 质 , 策略 可 以 用 一 个 简单 的 多 
层 感 知 机 (Multi-Layer Perceptron, MLP), 而 非 一 个 卷 积 神经 网 络 (Convolutional Neural Network, 
CNN) 来 表示 ， 而 辨别 器 仍旧 以 来 自 探索 样本 和 专家 示范 的 序列 观测 图 像 为 输入 ， 如 图 8.8 所 示 。 


低 维 本 体感 觉 特征 也 使 得 整个 学 习 过 程 更 高 效 。 
































































































































smeo ) |-z-] 
(比如 关节 角度 ) cor nl 


= { Ora :ON } V Te = { Ova :ON ) 





























88 使 用 本 体感 觉 状态 ， 只 从 观察 量 进行 模仿 学 习 。 图 片 改编 自 文 献 (Torabi et al, 2019c) 





欧 











如 第 7 章 中 所 提 及 的 ， 较 低 的 样本 效率 (Sample Efficiency) 是 当前 强化 学 习 算法 的 一 个 主 
要 问题 ， 这 在 模仿 学 习 和 Ifo 领域 中 也 存在 。 由 于 生成 对 抗 的 方法 属于 IRL 的 范畴 ， 上 面 介绍 
的 这 些 方法 可 能 有 8.3 节 所 提 到 的 较 大 计算 消耗 的 问题 。 这 些 对 抗 式 模仿 学 习 算 法 通常 需要 大 
量 的 示范 样本 和 运 代 学 习 来 成 功 学 会 模仿 示范 者 的 行为 。 为 了 进一步 提高 上 述 方法 的 样本 效率 ， 
文献 (Torabi et al., 2019a) 提出 在 策略 学 习 中 使 用 线性 二 次 型 调节 器 (Linear Quadratic Regulators, 
LQR) (Tassa et al., 2012) 作为 一 种 基于 轨迹 的 CTrajectory-Centric) 强化 学 习 方 法 ， 而 这 有 可 能 使 
得 真实 机 器 人 的 模仿 学 习 成 为 现实 。 

上 述 方法 主要 基于 示范 数据 空间 和 模仿 者 学 习 的 空间 有 一 致 性 的 基本 假设 。 然 而 ， 当 这 两 个 
空间 不 匹配 时 ， 比 如 在 三 维 空间 中 由 于 提供 观察 量 的 摄像 机 位 置 不 同 而 造成 的 视角 变化 ， 一 般 的 
模仿 学 习 方法 可 能 会 有 性 能 上 的 下 降 。 示 范 和 模仿 的 空间 差异 可 能 在 动作 空间 ， 也 可 能 在 状态 空 
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间 。 对 于 动作 空间 的 差异 ,文献 (Zotna et al., 2018) 提出 使 / 
状态 替代 连续 不 断 的 状态 〈Consecutive States) 来 作为 辨别 


























数据 集 增 强 
确实 展示 出 了 在 模仿 者 策略 与 示范 数 所 
5, Eun ET 























来 自 不 同 视 


| 








况 下 指 不 同 的 视角 。 






































情 
JJ 
JL 


个 








经 网 络 
这 领域 也 有 一 些 其 











提 及 的 视角 变化 ， 文 献 (Stadie et al., 2017) 提出 
的 样本 ,将 辨别 器 最 初 的 几 个 
了 域 泥 淆 (Domain Confusion) 的 想法 来 学 习 域 无 关 的 〈Domain Agnostic) 特征 ， 
在 辨别 器 的 最 初 神经 网 络 层 〈 作 为 一 个 特 行 
分 类 器 混淆 被 最 小 化 ， 因 而 这 也 利 




















成 对 有 任意 时 间 间 隔 CTime Gaps) 的 














B o 





















































器 的 输入 ， 这 可 以 看 作 是 用 噪声 进行 
(Dataset Augmentation) ， 从 而 有 更 鲁 棒 和 通用 的 表 : 
居 有 不 同 动 作 空间 的 情况 下 














在 他 们 的 实验 ! 





， 这 个 方法 











的 性 能 提升 。 而 对 状态 空间 的 差 





































































































经 网 络 层 的 输出 





ERE aS) 混淆 被 最 大 化 ， 但 对 
用 了 对 抗 式 训练 的 框架 。 在 训练 之 后 ， 提 取 器 (辨别 器 的 最 初 
E) 所 学 特征 对 视角 变化 有 了 不 变性 。 

EFE. Sun et al. (2019b) 提出 IfO ! 


使 用 一 个 分 类 器 〈Classifier) 来 区 分 
作为 分 类 器 的 输入 。 这 个 方法 使 用 


























其 中 域 在 这 种 
































第 一 个 可 证 明 高 效 的 算法 ， 叫 作 正 向 











对 抗 式 模仿 学 习 (Forward Adversarial Imitation Learning，FAIL)， 它 可 以 用 跟 所 有 相关 参数 有 多 





项 式 (Polynomial) 数量 关系 的 样本 量 来 学 习 


Observations) 的 数量 














个 近 最 优 的 策略 ， 而 不 依赖 于 单 
Eo FAIL 中 的 极 小 化 极 大 《Minimax) 方法 学 习 一 个 策略 ， 这 个 策略 能 够 根 


























观察 量 (Unique 





据 之 前 时 间 步 的 策略 匹配 下 一 个 状态 的 概率 分 布 。 近 来 ， 一 个 称 为 动作 指导 性 对 抗 式 模仿 学 习 


CAction-Guided Adversarial Imitation Learning, AGAIL) H 





























示范 


ee 




















(Guided Q-Network) 来 以 一 利 
中 (s°, a9) 表示 专家 示范 样本 。 





奖励 函数 工程 方法 : 生成 对 抗 方法 自然 地 提供 了 可 以 让 模仿 策略 以 强化 学 习 方 式 训练 的 奖励 





的 状态 和 不 完整 动作 信息 ， 因 而 是 Io 跟 传统 IL 的 
单个 状态 ， 类 似 于 之 前 介绍 的 文献 (Merel et al., 2017) 的 方法 。 此 外 ， 它 还 
监督 学 习 的 方式 学 习 p(a*|a ~ (se)) 的 真实 后 验 (Posterior)， 其 























昌文 献 (Sun et al., 2019a) 提出 ， 它 试图 利 

















个 结合 方法 。 辨 别 器 被 








j 来 区 分 
一 个 指导 性 Q 网 






























































信号 。 除 了 生成 对 抗 方法 ， 也 有 像 奖励 函数 工程 (Reward Engineering) 的 方法 来 解决 无 模型 IfO。 











励 函 数 工 程 指 需要 人 为 设计 奖励 函数 来 以 强 
励 函 数 工 程 将 模仿 学 习 的 监督 学 习 方式 转化 为 一 个 强化 学 习 
个 奖励 函数 。 需 要 注意 的 是 ， 人 为 设计 的 奖励 函数 不 需要 是 真 
更 像 是 一 个 基于 示范 数据 集 或 人 




































































事实 上 ， 之 前 小 节 中 提 到 的 基于 模型 的 Ito 中 的 RIDM 方法 是 一 种 奖励 函数 工程 方法 。 这 里 的 奖 


























化 学 习 的 方式 从 专家 示范 
问题 ， 通 ; 





学 习 模 仿 策略 的 方法 。 奖 























过 给 强化 学 习 智能 体 构建 一 





















































出 函数 可 以 








SEAT 
FE 务 先 验 知识 (Prior Knowledge) HY fii 
2018) 提出 使 用 预测 的 下 一 个 状态 和 示范 者 的 下 一 个 真实 状态 间 的 
作为 奖励 函数 ， 随 后 根据 这 个 奖 





生 专 家 策略 的 奖励 函数 ， 而 
十 。 比 如 , 文献 (Kimura et al., 





KRES (Euclidean Distance? 
一 般 强 化 学 习 的 方式 来 学 习 一 个 模仿 策略 。 





另 一 种 奖励 函数 工程 方法 称 为 时 间 对 比 网 络 (Time-Contrastive Networks, TCN), 由 文献 (Ser- 





manet et al., 2018) 提出 ， 如 图 8.9 所 示 。 为 了 














解决 前 


























的 行为 很 重要 ，TCN 方法 通过 学 习 
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四 提 及 的 多 视角 问题 ,而 这 个 问题 对 于 学 习 人 

区 物体 之 间 的 关系 ， 它 通过 

里 从 不 同 视角 获得 的 几 个 (原文 中 是 两 个 ) 同步 的 相机 视野 。 对 抗 式 训练 因此 可 以 用 在 嵌入 

式 表示 空间 (Embedded Representation Space)， 而 非 原 来 的 状态 空间 〈 如 其 他 方法 : 
NAE 





TCN 网 


























所 用 的 )。 这 














NZE (Triplet) 损失 函数 和 TCN WAN (Embedding Network) 来 学 到 的 。 这 
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模仿 学 习 





三 重 (triplet) 损失 











随机 的 或 来 自 时 间  — 时间 
近邻 的 极 负面 样本 
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个 





图 89 使 用 三 重 损 失 函 数 的 时 间 对 比 网 络 ( TCN ) 的 学 习 框 架 ， 它 以 一 种 自 监督 式 的 学 习 ， 用 于 











只 从 观察 量 进行 的 模仿 学 习 CIO ) PRIMES HRA (Observation Embedding )。 图 片 来 自 
文献 (Sermanet et al., 2018) ( 见 彩 插 ) 


























个 三 重 损失 被 设 定 为 在 视频 示范 数据 中 驱散 (Disperse) 连续 帧 的 短 时 近邻 (Temporal Neighbors), 
而 这 些 近 邻 满足 有 相似 的 视觉 特征 但 是 不 同 的 实际 动态 状态 ， 同 时 吸引 CAttract) 那些 不 同 视角 



































下 同时 发 生 的 帧 ， 这 些 帧 在 从 入 空间 中 有 相同 的 动态 状态 。 因 此 ， 模 仿 策略 能 够 用 无 标签 的 人 类 
示范 视频 以 自 监督 CSelf-Supervised Learning) 的 方式 进行 学 习 。 类 似 文献 (Kimura et al., 2018) 
中 描述 的 工作 ， 奖 励 函 数 定义 为 同一 时 间 步 下 示范 状态 和 智能 体 实际 状态 的 欧 氏 距离 ， 但 它 是 


















































在 蔡 入 空间 而 不 是 状态 空间 。TCN 被 设计 成 用 于 单 帧 状态 嵌入 〈Single Frame State Embedding) 。 











3 





Dwibedi et al. (2018) 扩展 了 TCN 的 工作 ， 使 其 可 以 对 多 个 帧 进行 嵌入 ， 从 而 更 好 地 表示 轨迹 的 
模式 (Patterns in Trajectory) 。 文 献 (Aytar et aL, 2018) 也 采用 了 一 个 相似 的 方法 ， 从 YouTube 视 
频 帧 中 基于 示范 数据 来 学 习 骸 入 函数 ， 从 而 解决 难以 探索 的 任务 ， 比 如 Montezuma’s Revenge 和 
Pitfall， 这 些 任务 在 第 7 章 的 探索 挑战 中 有 所 提 及 。 它 可 以 解决 较 小 的 变化 ， 比 如 视频 的 失真 和 
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MERL. EHARA REM YE RARS HE SBE (Measurement) 0:35 H E ER 




















如 之 前 所 介绍 的 ， 可 以 用 一 个 分 类 器 来 区 分 来 自 不 同 视角 的 观察 量 。 文 献 (Goo et al., 2019) 

















提出 , 分 类 器 也 可 以 用 于 预测 示范 数据 中 帧 的 顺序 ， 通过 一 种 打 乱 学 习 (Shuffle-and-Learn) 的 训 
练 方式 (Misra et al., 2016)。 奖 励 函 数 可 以 根据 所 学 的 分 类 器 来 定义 ， 并 用 于 训练 模拟 者 策略 。 同 


时 ， 



































在 之 前 生成 对 抗 方法 的 描述 中 ， 状 态 空 间 的 不 匹配 ， 比 如 由 视角 不 同 造成 ， 可 以 通过 不 变 的 





特征 表示 〈Invariant Feature Representation) 来 解决 。 然 而 ， 它 也 可 以 用 一 个 定义 为 示范 状态 和 模 
仿 者 状态 在 表征 空间 下 的 欧 氏 距离 作为 奖励 函数 ， 来 训练 模仿 策略 ， 而 非 使 用 辨别 器 并 以 示范 状 





























态 和 模仿 者 状态 作为 输入 时 的 输出 值 为 奖励 ， 这 在 文献 (Gupta et al., 2017; Liu et al., 2018) 中 都 有 
提 到 。 
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8.5. 概率 性 方法 





8.43 ”从 观察 量 模仿 学 习 的 挑战 


根据 以 上 所 提 及 的 Ito 中 


文献 (Torabi et al., 2019d) 所 提 到 的 问题 。 


























的 方法 ， 智 能 体能 够 只 从 观察 到 的 状态 来 学 习 策略 ， 但 是 仍旧 存在 















































。 具象 不 匹配 (Embodiment Mismatch): 具象 不 匹配 通常 用 来 描述 外 观 ( 对 于 基于 视觉 的 控 





























制 )、 动 态 过 程 和 其 他 特征 在 模仿 者 域 和 示范 者 域 间 的 差异 。 一 个 典型 的 例子 是 让 机 械 臂 




















模仿 人 的 手臂 执行 动作 。 由 于 控制 动力 学 和 观察 智能 体 的 视角 会 有 显著 的 差别 ， 所 以 这 样 








的 模仿 学 习 过 程 可 能 很 难 实现 。 即 使 是 确认 机 器 人 和 人 的 手臂 是 否 在 同一 个 状态 都 会 有 困 





难 。 一 个 解决 这 个 问题 






































的 方法 是 学 习 隐藏 对 应 关系 (Correspondences ) 或 潜在 表示 (Latent 


























Representations), 这 个 关系 或 表示 能 够 对 两 个 域 的 差异 产生 不 变性 , 然后 基于 这 个 关系 或 者 



























































视角 差异 : 在 上 面 提 到 上 




















于 视觉 的 控制 ， 由 于 示范 数据 由 相机 采集 的 图 像 或 视频 给 出 ， 视 角 的 差异 可 能 导致 模仿 














在 所 学 的 表征 空间 内 进行 模仿 学 习 。 一 个 用 来 解决 这 个 问题 的 IfO 方法 (Gupta et al., 2017) 
自动 编码 器 (Autoencoder) 来 学 习 不 同 的 具象 之 间 的 对 应 关系 以 一 种 监督 学 习 的 方式 。 自 
动 编码 器 被 训练 使 得 编码 后 的 表示 对 有 具象 特征 有 不 变性 。 另 一 个 方法 (Sermanet et al., 2018) 
使 用 少量 人 类 监督 和 无 监督 的 学 习 方 式 来 学 习 对 应 关系 。 



















































































的 几 个 方法 中 ， 比 如 TCN 和 一 些 其 他 基于 模型 的 IfO 方法 ， 对 于 基 
a 







































































略 表 现 显 著 下 降 。 通 常 来 讲 ， 需 要 有 一 个 在 对 视角 不 变 的 《Viewpoint Invariant) 空间 中 表 
征 状态 的 编码 模型 (Encoding Model)， 如 文献 (Sieb et al., 2019) 中 提 到 的 , 或 者 一 个 能 够 根 






























































据 某 一 帧 预测 具体 视角 的 分 类 器 ， 如 文献 (Stadie et al., 2017) 所 提 到 。 另 一 种 试图 解决 这 个 

















问题 的 IfO 方法 是 去 学 习 一 个 背景 转化 (Context Translation) 模型 ， 从 而 根据 一 个 观察 量 预 



































测 它 在 目标 背景 中 的 表示 (Liu et al., 2018)。 这 个 转化 是 通过 包含 源 背景 和 目标 背景 下 的 图 











像 数据 来 学 习 的 ， 而 任务 是 将 源 背景 转化 到 目标 背景 。 这 需要 收集 源 背景 和 目标 背景 下 相 


似 的 样本 来 实现 。 


8.5 ”概率 性 方法 






























































除了 使 用 神经 网 络 的 参数 化 方法 ， 许 多 概率 推理 方法 也 可 以 被 用 于 模仿 学 习 ， 尤 其 是 在 机 器 
人 运动 领域 ,这 些 方法 包括 高 斯 混合 回归 (Gaussian Mixture Regression, GMR )(Calinon,2016)、 动 态 











运动 基 元 (Dynamic Movement 























Primitives, DMP) (Pastor et al., 2009)、 概 率 性 运动 基 元 (Probabilistic 





Movement Primitives, ProMP (Paraschos et al., 2013)、 核 运动 基 元 (Kernelized Movement Primitives, 
KMP) (Huang et al., 2019)、 高 斯 过 程 回 归 (Gaussian Process Regression, GPR) (Schneider et al., 
2010)、 基 于 GMR 的 高 斯 过 程 Jaquier et al., 2019) 等 。 由 于 本 书 主要 是 介绍 使 用 深度 神经 网 络 参 























数 化 的 深度 强化 学 习 ， 所 以 我 
结合 起 来 本 身 就 不 是 平庸 的 《 
然而 ， 即 使 将 概率 性 方法 




































































们 将 仅 简 单 介 绍 这 些 概率 性 方法 ， 而 将 概率 性 方法 和 深度 强化 学 习 
Non-Trivial)， 不 像 在 本 章 中 介绍 的 其 他 方法 那样 直接 。 
用 于 深度 强化 学 习 任 务 可 能 是 不 容易 实现 的 ， 概 率 性 方法 由 于 其 一 
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$83 模仿 学 习 


























些 优点 还 是 很 值得 研究 的 ， 有 具体 表现 讨论 如 下 。 

不 同 于 深度 神经 网 络 给 出 确定 性 的 预测 结果 ， 由 GRM、ProMP 和 KMP 计算 得 到 预测 分 布 
的 协 方差 矩阵 〈Covariance Matrices) 编码 了 预测 轨迹 的 变化 性 。 而 这 在 使 用 所 学 模型 来 预测 或 
做 决策 且 其 决策 的 置信 和 度 同 样 重要 时 会 很 有 用 ， 比 如 在 机 器 人 操作 或 车 辆 驾驶 的 情形 中 为 了 保 
证 安全 ， 每 个 指令 的 可 行 性 和 风险 都 需要 以 概率 模型 的 方式 来 分 析 。 除 此 之 外 ， 概 率 性 方法 根据 
概率 论 的 支持 通常 有 解析 解 ， 这 与 基于 深度 神经 网 络 的 “ 黑 盒 ”优化 过 程 不 同 。 而 这 也 使 得 概率 
性 方法 能 够 在 数据 量 较 小 时 用 较 短 时 间 求 解 。 此 外 ， 像 基于 GMR 的 高 斯 过 程 类 的 概率 性 方法 对 
未 见 过 的 输入 数据 点 有 快速 的 适应 能 力 ， 这 在 下 面 小 节 中 将 会 讨论 。 对 于 模仿 学 习 中 的 概率 性 方 
法 ， 数 据 集 被 默认 为 是 以 有 标签 数据 类 型 来 提供 的 ， 即 输入 和 输出 的 配对 ， 对 于 一 般 强 化 学 习 ， 
它 通 常 是 状态 -动作 对 {(s;,0;)|¢ = 0,… , 入}， 而 对 按时 间 排 列 的 示范 数据 ， 它 可 以 是 时 间 - 状 态 
对 {(t, Salt =0,--- , N} Gaquier et al., 2019). 

基于 高 斯 混合 回归 (GMR) 的 高 斯 回归 (GPR) 是 一 种 结合 了 高 斯 混合 回归 和 高 斯 过 程 回 
归 的 方法 。GMR 利用 了 高 斯 条 件 定理 (Gaussian Conditioning Theorem) 来 估计 给 定 输入 数据 的 
输出 分 布 。 高 斯 混合 模型 (Gaussian Mixture Model, GMM) 通过 期 望 最 大 化 算法 (Expectation 
Maximization, EM) 来 拟 合 输入 输出 数据 点 的 联合 分 布 〈Joint Distribution ) 。 给 定 观察 输入 ， 基 
于 条 件 的 《Conditional〉 均 值 和 方差 可 以 有 封闭 解 ， 其 输出 结果 因而 可 以 通过 基于 条 件 的 期 望 
的 线性 组 合 来 得 到 ， 使 用 测试 数据 点 作为 输入 。GP 如 同 深度 神经 网 络 一 样 ， 是 针对 学 习 确 定性 
(Deterministic) 输入 -输出 关系 问题 的 方法 ， 它 基于 可 能 的 目标 函数 的 高 斯 先 验 CPrior) 来 计算 。 
基于 GMR 的 GP (GMR-Based GP) 是 种 结合 的 方法 ， 它 的 GP 先 验 均值 等 于 GMR 模型 基于 条 件 
的 均值 ， 而 GP 的 核 (Kernel) 是 相应 GMM 各 个 组 分 单独 的 核 的 个 加 。 这 种 结合 使 得 基于 GMR 
的 GP 方法 有 GP 通过 均值 和 核 来 编码 多 种 先 验 置信 (Prior Beliefs〉 的 能 力 ， 并 且 人 允许 GMR fi 
计 的 多 样 化 信息 被 封装 到 GP 的 不 确定 性 (Uncertainty) 估计 中 。 当 给 出 新 的 未 见 过 的 输入 观察 
数据 点 时 ， 基 于 GMR 的 GP 能 够 快速 适应 它们 并 给 出 合理 预测 输出 ， 如 图 8.10 所 示 。 对 于 一 个 
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图 8.10 ”模仿 学 习 中 基于 GMR 的 GP 方法 。 左 边 图 中 ， 先 验 均 值 为 蓝 色 ， 采 样 轨 迹 为 紫色 。 右 边 
图 中 ， 先 验 均值 ( 与 左 图 相同 ) 为 蓝 色 ， 采 样 轨迹 为 粉色 ， 预 测 轨迹 为 红色 ， 有 三 个 黑 
色 的 点 为 新 观察 量 。 图 片 来 自 文 献 Jaquier et al, 2019) ( 见 彩 插 ) 
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8.6 ”模仿 学 习作 为 强化 学 习 的 初始 化 


























二 维 轨迹 的 估计 过 程 ， 图 8.10 中 的 左边 用 紫色 线 展示 了 所 给 的 样本 ， 而 蓝 色 线 展示 了 先 验 均值 。 
右边 的 图 是 基于 GMR 的 GP 方法 ， 其 中 有 3 个 新 的 观察 数据 点 被 标 为 黑色 ， 粉 色 线 展示 了 采样 
轨迹 ， 而 红色 线 是 预测 轨迹 。 这 个 方法 经 证 实 对 使 用 示范 数据 进行 学 习 并 快速 适应 到 新 的 数据 点 
的 情况 有 很 好 的 表现 ， 而 这 可 以 用 于 操作 机 器 人 基于 示范 规避 障碍 物 。 

















































































































8.6 ”模仿 学 习作 为 强化 学 习 的 初始 化 


使 用 模仿 学 习 的 基本 设 定 是 在 不 使 用 任何 强化 信号 而 只 有 示范 数据 的 情况 下 学 习 一 个 策略 ， 
这 意味 着 通过 模仿 学 习 所 学 策略 是 来 自 示 范 数据 的 最 终 策 略 。 然 而 ， 在 实际 中 ， 来 自 模仿 学 习 的 
策略 通常 没有 足够 的 泛 化 能 力 ， 尤 其 是 对 于 未 见 过 的 情况 。 因 此 ， 我 们 可 以 在 强化 学 习 的 过 程 
使 用 模仿 学 习 ， 以 此 来 提高 强化 学 习 的 效率 。 举 例 来 说 ， 使 用 示范 数据 的 预 训练 策略 可 以 用 来 初 
始 化 强化 学 习 的 策略 。 关 于 这 些 方法 的 细节 将 在 随后 讨论 。 因 此 ， 我 们 并 不 需要 模仿 学 习 给 出 的 
策略 是 最 优 的 ， 而 是 通过 一 个 相对 简单 的 学 习 过 程 得 到 一 个 足够 好 的 策略 ， 比 如 使 用 监督 学 习 的 
模仿 学 习 方 法 。 所 以 , 我 们 在 下 面 只 选择 一 些 简单 直接 的 方法 来 作为 后 续 强 化 学 习 过 程 的 初始 化 
方法 。 模 仿 学 习 中 更 精致 的 方法 毫 无 疑问 会 成 为 更 好 的 初始 化 策略 ， 但 是 也 会 相应 带 来 如 较 长 的 
预 训练 时 间 等 缺点 。 

总 体 来 说 , 通过 监督 学 习 方式 模仿 示范 数据 而 学 到 的 策略 ,可 以 使 用 包括 BC、DAgger、Vari- 
ational Dropout 等 方法 ， 它 们 被 看 作 是 对 强化 学 习 策略 较 好 的 初始 化 ， 有 具体 地 ， 通 过 下 面 小 节 ! 
描述 的 策略 替换 (Policy Replacement) 或 者 残 差 策略 学 习 (Residual Policy Learning) 方法 。 

除了 用 策略 蔡 换 来 初始 化 强化 学 习 《〈 模 拟 学 习 策 略 在 强化 学 习 初 始 时 人 蔡 换 其 策略 )， 残 差 策 
略 学 习 (Johannink et al., 2019; Silver et al., 2018) 是 另 一 种 实现 初始 化 的 方法 。 比 如 对 于 机 器 人 控 
制 任务 ， 它 通常 基于 一 个 较 好 但 是 不 完美 的 控制 器 ， 并 以 这 个 初始 控制 器 为 基础 学 习 一 个 残 差 策 
略 。 对 于 现实 世界 的 机 器 人 控制 ， 初 始 控制 器 可 以 是 一 个 模拟 器 中 预 训练 的 策略 ;对 于 模拟 的 机 
器 人 控制 ， 初 始 控制 器 可 以 用 监督 学 习 的 方式 基于 专家 轨迹 预 训练 得 到 ， 如 8.2 节 中 的 方法 。 

残 差 策略 学 习 中 的 动作 遵循 结合 式 策略 ， 即 由 初始 策略 CInitial Policy) rini 和 残 差 策略 Tes 
求 和 得 到 : 
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a= Tini(S) + Tres (8). (8.34) 











通过 这 种 方式 ， 残 差 策略 学 习 能 够 尽 可 能 地 保持 初始 策略 的 表现 。 

















例子 : 使 用 DDPG 的 残 差 策略 学 习 

这 里 我 们 使 用 深度 确定 性 策略 梯度 (DDPG) 算法 来 实现 基于 示范 的 残 差 策略 学 习 。 根 据 残 
差 策略 学 习 方 法 ,DDPG 中 的 行动 者 (Actor) 策略 将 包含 两 部 分 : 一 个 是 预 训练 得 到 的 初始 策略 ， 
在 初始 化 后 将 被 固定 ， 另 一 个 是 后 面 学 习 过 程 中 将 训练 的 残 差 策 略 。 初 始 策略 通过 模仿 学 习 根据 
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4H 
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示范 数据 训练 





(Target Critic) 














各 和 





ly I 
HA. 








略 ， 开 始 训练 过 程 。 
体 与 环境 交互 ， 动 作 值 是 初始 化 策略 和 残 差 策略 的 和 值 : = aii 十 Gress PER 


智能 


(2) XE 





到 。 这 个 预 训练 的 初始 策略 只 ) 
残 差 策略 学 习 的 过 程 如 下 : 
C1) 以 残 差 学习 的 方式 初始 化 DDPG 中 的 


目标 初始 策略 (Target Initial Policy), 
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仿 学 习 





所 有 网 络 ， 包 括 对 批判 者 〈Critic) 、 
的 一 般 初 始 化 ,以 及 对 残 差 策略 (Residual Policy) 和 目标 残 差 策略 (Target Residual 
Policy) 的 最 后 网 络 层 (Final Layers) 进行 零 值 初始 化 ， 还 有 将 通过 模 


4H 
本 





JF DDPG 的 行动 者 部 分 。 基 于 DDPG HiFi 


rt 
Um 
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目标 批判 














到 的 策略 作为 初 








一 共 是 六 个 


网 络 。 这 时 





以 (5, ares, 8’, r, done) 的 形式 存储 。 


(3) 从 经 验 
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UE 中 采样 (s, Ares, s', T, done) 2. 有 

















Qtarget (5, ares) =r+ *Q' (s, Tes(8)) 


行动 者 的 目标 是 最 大 化 状态 s 和 动作 ares 的 动作 价值 函数 ， 如 下 : 
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AE 














这 可 以 通过 确 
(4) 

















对 比 一 般 的 DDPG 算法 ， 使 上 
的 整个 动作 a 来 学 习 动 作价 值 函数 和 策 


8.7 


H 
重复 上 面 的 第 (2) (3) 步 ， 直 到 策略 收敛 到 接近 最 优 。 
残 差 策略 学 习 的 不 同 只 是 对 残 差 策略 的 动作 aes， 而 非 智 能 体 





M Q(s, ares) = max Q(s, Tres (5|0)) 


策略 梯度 (Deterministic Policy Gradient) 来 优化 。 















































各 。 





强化 学 习 中 利用 示范 数据 的 其 他 方法 


回 定 住 初始 策略 和 目标 策 


Ek 





(8.35) 


RE QT, mL. 分 别 表 示 目 标 批判 者 和 目标 残 差 策略 。 批 判 损失 函数 是 MSE(Quareet(s, ares), Q5, ares))。 


(8.30) 




















8.7.1 ”将 示范 数据 导入 经 验 回放 缓存 





通过 直接 将 专家 轨迹 
数据 ， 而 非 预 训练 一 个 策 
用 。DQfD 使 用 一 个 
向 其 添加 采集 到 的 新 样本 。DQID 使 ) 
回放 缓存 中 采样 训练 批 ， 
数据 和 一 个 一 般 的 TD 损失 函数 的 
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咯 来 初始 化 强化 学 习 策略 。 它 使 
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专家 示范 初始 化 
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基于 示范 的 深度 确 
DDPGfD ) (Veéerik et al., 2017) 是 一 种 与 上 














优先 经 验 回 


一 个 监督 














且 它 使 用 
结合 来 训练 策略 。 




















定性 









































fl DOfD 类 似 的 方法 , 但 是 使 














基于 示范 的 深度 Q-Learning (Deep Q-Learning from Demonstrations, DQfD ) (Hester et al., 2018) 
入 离线 COff-Policy) 强化 学 习 的 记忆 缓存 (Memory Buffer) ! 














来 利用 示范 











] DQN 来 解决 只 有 离散 动作 空间 的 应 
的 经 验 回放 缓存 (Experience Replay Buffer)， 并 不 断 
放 〈Prioritized Experience Replay) (Schaul et al., 
式 折 页 损失 函数 (Hinge Loss) 来 模仿 示范 


策略 梯度 (Deep Deterministic Policy Gradient from Demonstrations， 
] DDPG 来 处 理 连 续 动 作 


8.7. ”强化 学 习 中 利用 数据 的 其 他 方法 





空间 的 应 用 。DDPGfD 通过 直接 将 专家 策略 输入 离线 强化 学 习 〈 即 DDPG) 的 缓存 来 利用 示范 数 
据 ， 从 而 通过 示范 和 探索 数据 一 同 训练 策略 。 优 先 经 验 回放 被 用 来 平衡 两 种 训练 数据 。DDPGfD 



































可 以 用 于 强化 学 习 中 的 简单 、 
更 积极 的 探索 。 
文献 (Nair et al., 2018) 提出 

































































易 解 决 的 任务 ， 而 对 从 稀 玻 奖励 学 习 等 较 难 任务 需要 在 训练 中 进行 








个 基于 DQfD 和 DDPGfD 的 方法 ， 对 较 难 的 任务 有 更 好 的 学 习 





效率 , 这 些 任 务 需 要 基于 示范 数据 进一步 探索 去 解决 。 它 的 策略 损失 函数 是 策略 梯度 损失 (Policy 
Gradient Loss) 和 行为 克隆 损失 (Behavioral Cloning Loss) 的 结合 ， 其 梯度 如 下 : 






































损失 。 
此 外 ， 


状态 下 所 学 的 批判 者 Qs, 














能 够 探索 至 











A1VoJ — A2VoLBac (8.37) 


了 是 一 般 的 强化 学 习 目 标 《〈 最 大 化 的 )， 而 Lsc 最 小 化 的 ) 是 本 章 开始 时 定义 的 行为 克隆 



























































这 个 方法 也 使 用 了 Q-Filter 技术 ， 它 要 求 行为 克隆 损失 函数 只 用 于 部 分 状态 ， 在 这 些 
a) 判定 示范 者 动作 比 行动 者 动作 更 好 : 
Np 
Lgc = 5 |7(s;|Ox) 一 ail 1o, a)» Q(s.,m(;) (8.38) 
jei 











以 同样 








其 中 Np 是 示范 数据 集中 样本 的 数量 ， 而 
更 好 的 动作 ， 而 不 是 被 示范 数 扩 
的 方式 ，QT-Opt (Kalashnikov et al., 2018) 和 分 位 数 QT-Opt (Quantile QT-Opt) (Bodnar 














采样 得 到 的 。 这 保证 了 策略 





(si, Qi) 是 从 示范 数据 集 
居所 限制 |。 























et al., 2019) 算法 也 使 用 在 线 缓存 和 离线 示范 
CActor-Free) 的 交叉 焕 方 法 和 DQN, 可 以 在 现实 世界 中 基于 图 像 的 机 器 人 学 习 任 务 上 达到 当时 最 




















缓存 混合 的 方式 来 实现 离线 学 习 ， 通 过 一 种 无 行动 者 











FHK (State-of-the-Art) 表现 。 


8.7.2 ”标准 化 Actor-Critic 



































标准 化 Actor-Critic (Normalized Actor-Critic, NAC) (Gao et al., 2018) 是 另 一 个 利用 示范 数据 


来 进行 高 效 强 





化 学 习 的 方法 ， 它 先 预 训 练 一 个 策略 作为 改进 强化 学 习 过 程 的 初始 化 。NAC 与 其 











目标 函数 ， 

















进行 训练 ， 











也 方法 的 差异 是 它 在 使 用 万 











这 使 得 NAC 对 















































< 范 数 据 预 训练 初始 化 策略 和 改进 强化 学 习 的 过 程 中 使 用 完全 相同 的 
包含 次 优 样本 的 示范 数据 也 表现 得 很 鲁 棒 。 
另 一 方面 ，NAC 方法 类 似 于 DDPGfD 和 DQ 方法 ， 但 是 它 依次 使 用 示范 数据 和 交互 样本 



































Ei 











而 不 是 同时 使 








j 这 两 类 样本 数 和 


Po 
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8.7.3 用 示范 数据 进行 奖励 塑 形 


用 示范 数据 进行 奖励 塑 形 (Reward Shaping with Demonstrations) (Brys et al., 2015) 是 一 个 专 










































































注 于 初始 化 强化 学 习 中 价值 函数 而 非 动作 策略 的 方法 。 它 给 智能 体 提供 了 一 个 中 间 的 奖励 来 丰富 
MRKA S: 

Rr(s,a,s’) = R(s,a,s') + FP(s,a,s') (8.39) 
其 中 基于 示范 数据 D 的 塑 形 奖励 F? 通过 势 函数 o 来 定义 并 保证 其 收敛 性 ， 其 形式 如 下 : 

F?(s,a,s',a’) = y?” (s', a^) — ¢?(s, a) (8.40) 
而 6? 定义 为 

$P (s,a) = max e- 36-50 E (ss?) (8.41) 


(sd,a) 

















它 被 用 来 最 大 化 最 接近 示范 状态 s. 的 状态 s 的 势 值 。 优 化 后 的 势 函数 被 用 来 初始 化 强化 学 习 中 
的 动作 价值 函数 Q: 









































Qo(s,a) = óP (s, a) (8.42) 




















奖励 塑 形 的 直观 理解 是 使 探索 到 的 样本 倾向 于 那些 等 于 或 接近 示范 数据 的 状态 -动作 对 ,从 而 加 速 
强化 学 习 的 训练 过 程 。 奖 励 塑 形 提供 了 一 种 在 强化 学 习 过 程 中 初始 化 价值 估计 函数 的 较 好 方式 。 

其 他 方法 像 无 监督 感知 奖励 (Unsupervised Perceptual Rewards) (Sermanet et al., 2016) 也 用 
于 通过 示范 数据 学 习 一 个 密集 且 平 滑 的 奖励 函数 ， 使 用 的 是 一 个 预 训 练 的 深度 学 习 模型 得 出 的 
特征 。 

















































































































8 .8 总 结 


由 于 第 7 章 中 提 到 的 强化 学 习 低 学 习 效 率 的 挑战 ， 我 们 介绍 模仿 学 习 来 作为 一 种 可 能 的 解决 
方案 ， 它 需要 使 用 专家 示范 。 本 章 整 体 可 以 总 结 为 几 个 主要 类 别 。8.2 节 中 介绍 的 行为 克隆 方法 
是 以 监督 学 习 方 式 进行 模仿 学 习 的 最 直接 方法 ， 它 可 以 进一步 与 强化 学 习 结合 ， 比 如 8.6 节 中 介 
绍 的 将 其 作为 强化 学 习 的 初始 化 。 一 个 更 先进 的 结合 模仿 学 习 和 强化 学 习 的 方式 是 通过 IRL 来 
显 式 或 隐 式 地 从 示范 中 恢复 奖励 函数 ， 如 8.3 节 所 介绍 的 。 像 MaxEnt IRL 方法 可 以 显 式 地 学 习 
奖励 函数 ， 但 是 可 能 有 较 大 计算 消耗 。 其 他 的 生成 对 抗 式 方法 ， 如 GAIL、GAN-GCL、AIRL 则 
能 更 高 效 地 学 习 奖 励 函 数 和 策略 。 另 一 个 问题 是 如 果 示 范 数据 集中 的 动作 是 缺失 的 ， 比 如 只 从 视 
频 中 学 习 ， 那 么 怎样 合理 地 进行 模仿 学 习 ? 这 实际 是 Ito 的 研究 范畴 ， 如 8.4 节 所 介绍 。 由 于 HO 
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问题 是 从 另 一 个 角度 来 看 模仿 学 习 的 ， 之 前 介绍 的 方法 像 BC、IRL 同样 可 以 经 过 适当 修改 用 于 
IfO. IfO 中 的 方法 基本 可 以 总 结 为 基于 模型 和 无 模型 两 类 。 基 于 模型 的 方法 从 样本 中 学 习 动 态 模 
型 ， 而 且 它 可 以 通过 模型 中 状态 -动作 关系 从 只 有 观察 量 的 示范 数据 中 恢复 动作 ， 以 显 式 或 者 隐 
式 的 方法 。 随 后 ， 如 果 动 作 被 显 式 地 恢复 了 ， 就 可 以 使 用 常规 的 模仿 学 习 方 法 。 像 RIDM、BCO、 
ILPO 等 方法 属于 这 个 基于 模型 的 IO 范畴 。 对 于 IfO 中 的 无 模型 方法 ， 奖 励 函 数 工 程 或 者 生成 对 
抗 式 方法 可 以 用 来 提供 奖励 函数 从 而 进行 强化 学 习 。 像 OptionGAN. FAIL. AGAIL 等 方法 属于 
生成 对 抗 式 HO， 而 TCN 和 一 些 其 他 方法 属于 IfO 的 奖励 函数 工程 一 类 。 这 里 对 IfO 的 两 个 类 别 
实际 对 一 般 的 模仿 学 习 也 适用 ， 比 如 GAIL 是 一 种 生成 对 抗 式 方法 ， 而 最 近 提 出 的 对 比 正 向 动态 
(Contrastive Forward Dynamics, CFD) (Jeong et al., 2019) 是 模仿 学 习 的 一 种 从 观察 量 和 动作 示范 
中 学 习 的 奖励 函数 工程 方法 。 概 率 性 方法 包括 GMR、GPR 和 基于 GMR 的 GP 方法 作为 一 般 的 模 
仿 学 习 方 法 而 在 本 章 中 有 所 介绍 ， 它 们 对 于 相对 低 维 的 情况 有 较 高 的 学 习 效 率 ， 如 8.5 节 所 讨论 
的 。 最 终 ， 一 些 其 他 方法 像 DDPGfD 和 DQfD 将 示范 数据 直接 导入 离线 强化 学 习 的 回放 缓存 中 ， 
等 等 ， 都 在 8.7 节 中 介绍 。 模 仿 学 习作 为 一 种 解决 学 习 问 题 的 高 效 方式 ， 可 以 与 强化 学 习 有 机 结 
合 ， 相 关 研 究 领域 依然 十 分 活跃 ， 
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在 本 章 中 ,我 们 将 从 学 习 和 规划 的 角度 进一步 分 析 强 化 学 习 。 我 们 首先 将 介绍 基于 模型 和 无 
模型 强化 学 习 的 概念 ， 并 着 重 介绍 模型 规划 的 优势 。 为 了 在 强化 学 习 中 充分 利用 基于 模型 和 无 模 
型 方法 ， 我 们 将 介绍 集成 学 习 和 规划 的 架构 ， 并 详细 阐述 应 用 其 架构 的 Dyna-Q 算法 。 最 终 ， 将 
进一步 详细 分 析 集 成 学 习 和 规划 的 基于 模拟 的 搜索 应 用 。 
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在 强化 学 习 中 ， 智 能 体 可 以 和 环境 进行 交互 。 智 能 体 在 每 一 轮 交 互 中 收集 到 的 信息 可 以 称 为 
智能 体 的 经 验 ， 这 能 帮助 智能 体 提 升 自身 的 决策 策略 。 一 般 来 说 ， 学 习 指 代 智 能 体 决 策 策 略 基 于 
实际 和 环境 的 交互 逐渐 提升 的 过 程 。 直 接 策 略 学 习 是 最 为 基本 的 学 习 方式 ， 如 图 9.1 所 示 ， 其 中 ， 
智能 体 首先 根据 当前 的 决策 策略 在 环境 中 制定 动作 , 环境 会 基于 智能 体 当 前 的 状态 和 动作 反馈 给 













































































智能 体 环境 


决策 行为 








图 9.1 直接 策略 学 习 
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智能 体 所 得 到 的 收益 ， 
而 ， 直 接 策略 学 习 是 基 























为 了 提高 学 习 效率 ， 
经 验 是 很 有 帮助 的 。 通 过 在 环境 中 进行 演算 
条 有 具体 的 包含 一 



































的 状态 和 决策 策略 形成 





使 








其 能 够 评估 当前 策略 的 表现 并 帮助 和 
于 智能 体 在 环境 中 每 一 


?能 体 探索 如 何 进一步 提升 策略 。 然 








个 单 步 动作 所 产生 的 经 验 ， 由 于 环境 的 随机 性 和 不 
确定 性 ， 基 于 单 步 动 作 的 经 验 会 使 学 习 结果 存在 很 大 方差 ， 大 大 影响 了 学 习 的 速度 和 质量 。 









































系列 状态 、 





型 学 习 中 ， 智 能 体 将 在 真实 的 环境 中 在 线 江 

















在 策略 学 习 的 每 一 个 学 习 周 期 中 ， 





算 ， 并 将 获得 








积累 多 轮 和 环境 的 交互 作为 智能 体 的 
(Roll-out) 收集 多 轮 交 互信 息 ， 即 在 环境 中 根据 当前 











动作 和 奖励 信息 的 探索 轨迹 。 在 一 般 的 无 模 
的 多 轮 交 互信 息 用 于 策略 学 习 。 





























然而 ， 在 环境 中 通过 在 线 演算 产生 经 验 的 成 本 很 高 。 例 如 ， 在 工业 界 的 应 用 中 ， 一 些 状 态 可 





以 指 代 系统 朋 溃 或 者 设备 爆炸 ， 这 些 状 态 在 策 
环境 中 只 能 顺序 演算 ， 不 能 并 行 计 算 ， 














这 导致 




















各 学 习 的 探索 过 程 中 是 十 分 危险 的 。 另 外 ， 在 实际 
es 因而 ， 在 一 些 场景 





下 ， 我 们 希望 能 够 使 用 模拟 环境 来 取代 实际 环境 进行 探索 和 经 验 积累 。 在 模拟 环境 中 的 演算 被 称 





为 规划 (Planning)， 可 





通过 并 行 计算 高 效 地 为 策 
效 的 模拟 环境 ， 基 于 模型 的 方法 得 














以 提出 。 





9.2 ”基于 模型 的 方法 


























2 为 了 在 规划 中 使 用 有 














为 了 能 够 实行 规划 ， 


模型 的 概念 将 在 智能 





体 和 环境 之 间 产 生 (Kaiser et al., 2019)， 如 图 9.2 所 


示 ， 当 智能 体 在 状态 S, 采取 决策 动作 A 时 ， 环 境 会 为 模型 给 予 反 馈 奖 励 Reg 并 使 智能 体 进入 


下 一 状态 S41。 根 据 智能 体 和 环境 之 间 收 集 到 的 经 验 信息 ， 














我 们 将 Siqi 和 (Si, At) 之 间 的 映射 


关系 称 为 转移 模型 , 并 将 Reri 和 (Se, AL) 之 间 的 映射 关系 称 为 奖励 模型 。 当 状态 不 能 完全 被 观察 








信息 表示 时 ， 还 将 设 定 观 察 模 型 M (O;|S,) 和 表示 模型 M (Si 
其 中 O 表示 在 状态 S, 下 第 上 步 所 对 应 的 观察 信息 。 例 如 ， 
察 信 息 ， 可 以 体现 该 物体 蕴含 的 所 处 状态 信息 。 














fi 








119: Az, Or) (Hafner et al., 2019), 





甫 捉 到 的 关乎 物体 运动 的 图 片 属于 观 








后 面 , 为 了 集中 分 析 其 中 的 转移 模型 和 奖励 模型 ， 


我 们 假设 状态 是 完全 可 观测 的 。 我 们 将 转移 模型 和 奖励 模型 分 别 由 方程 FU F, 表示 : 





通过 模型 规划 
进行 策略 学 习 


EG. uim 
MEA SA SI 
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a, 
学 习 
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F 模 型 的 强化 学 习 方 法 
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S, Id Fa (Si, A) , (9.1) 
Riya = FLA). (9.2) 

















模型 学 习 是 一 个 监督 式 的 拟 合 学 习 过 程 ， 目 标 是 建立 一 个 虚拟 的 环境 ， 其 中 的 转移 关系 和 奖 
励 关系 和 真实 环境 保持 一 致 。 因 而 ， 基 于 对 真实 环境 的 了 解 ， 我 们 可 以 使 用 一 个 环境 模型 使 智能 
体 在 其 中 进行 规划 ， 然 后 将 收集 到 的 经 验 信息 用 于 帮助 其 策略 学 习 。 

在 不 同 的 应 用 场景 中 ， 模 型 学 习 和 策略 学 习 的 关系 是 多 样 的 ， 有 具体 如 下 所 述 。 

。 直 接 学 习 : 如 果 智 能 体 已 经 基于 规则 或 专家 信息 和 环境 交互 过 多 次 ， 那 么 之 前 收集 到 的 经 
验 信息 可 以 直接 用 来 进行 模型 学 习 。 当 模型 学 习 完 成 时 ， 智 能 体 可 以 将 训练 后 的 模型 当 作 
模拟 的 环境 ， 并 与 其 交互 帮助 其 进行 策略 学 习 。 
迭代 学 习 : 如 果 模 型 在 初始 时 并 没有 足够 的 数据 进行 学 习 ， 那 么 模型 学 习 和 策略 学 习 可 以 
迭代 交替 进行 。 基 于 当前 智能 体 和 环境 交互 产生 的 有 限 信息 ， 模 型 可 以 学 习 真 实 环境 中 部 
分 且 有 限 的 信息 。 智 能 体 在 基于 有 限 学 习 产生 的 模拟 环境 进行 规划 并 以 此 训练 参数 ， 且 其 
策略 表现 得 到 了 少许 提升 后 ， 将 用 更 新 的 策略 在 真实 环境 中 交互 ， 并 将 收集 到 的 经 验 信息 
进一步 用 于 对 模型 的 学 习 。 随 着 迭代 次 数 的 增加 ， 模 型 学 习 和 策略 学 习 将 逐步 收敛 到 最 优 
结果 。 因 此 ， 模 型 学 习 和 策略 学 习 可 以 相互 辅助 而 进行 有 效 的 学 习 。 

忆 此 ， 基 于 模型 的 强化 学 习 将 通过 对 真实 环境 的 学 习 建立 一 个 模拟 环境 的 模型 ， 并 在 其 中 进 
行规 划 ， 使 智能 体 更 好 地 进行 策略 学 习 。 模 型 学 习 的 优势 可 列举 如 下 ; 

。 由 于 规划 可 以 在 智能 体 和 模型 之 间 完 成 ， 智 能 体 不 需要 在 真实 环境 中 采取 大 量 的 决策 动作 

进行 探索 和 策略 学 习 。 因 而 ， 和 成 本 高 并 且 需 要 在 线 采 取 动 作 的 真实 环境 相 比 ， 基 于 模型 

的 方法 能 够 有 效 地 降低 训练 时 间 并 且 保 障 在 策略 学 习 过 程 中 的 安全 性 。 例 如 ， 在 真实 环境 
中 ， 机 器 人 完成 任务 需要 实际 操作 ， 在 QT-Opt (Kalashnikov et al., 2018) 方法 中 ， 为 了 完成 
抓 取 的 任务 ，7 个 机 器 人 需要 昼夜 不 停 地 在 实际 环境 中 收集 采样 数据 。 然 而 一 个 模拟 的 环 

境 (通过 学 习 或 人 工 建立 ) 可 以 用 来 节约 大 量 的 时 间 并 且 降 低 机 器 人 的 磨损 。 

。 当 策略 学 习 在 智能 体 和 模拟 模型 之 间 进 行 时 ， 学 习 过 程 可 以 采用 并 行 计 算 。 在 分 布 式 系统 
中 可 以 存在 多 个 学 习 者 合作 同时 进行 策略 学 习 ， 其 中 每 个 学 习 者 可 以 和 一 个 根据 真实 环境 
模拟 的 模型 进行 交互 ， 从 而 所 有 学 习 者 都 可 以 在 其 对 应 的 模型 进行 规划 。 模 型 之 间 是 相互 
独立 的 ， 并 且 不 会 影响 到 真实 环境 中 所 处 的 状态 信息 。 因 此 ， 具 有 并 行 性 的 策略 学 习 大 大 
提高 了 学 习 效率 ， 且 增 大 了 可 学 习 问 题 的 规模 。 

然而 ， 基 于 模型 的 强化 学 习 的 结构 同样 也 存在 缺点 和 不 足 : 

。 在 基于 模型 的 强化 学 习 中 ， 模 型 学 习 的 表现 将 会 影响 策略 学 习 的 结果 。 对 于 复杂 且 动态 的 
环境 场景 ， 如 果 学 习 到 的 模型 不 能 很 好 地 模拟 出 真实 环境 ， 智 能 体 在 规划 中 会 和 一 个 错误 
且 不 准确 的 模型 进行 交互 ， 从 而 将 增 大 策略 学 习 的 误差 。 

。 如 果真 实 环境 有 更 新 或 者 调整 , 模型 需要 通过 多 次 迭代 之 后 才 会 学 到 环境 的 变化 , 然后 还 需 
要 耗费 大 量 训 练 时 间 使 智能 体 学 习 并 调整 其 策略 。 因 此 ， 对 于 在 线 学 习 中 真实 环境 的 变化 ， 
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能 体 对 其 策略 的 相应 调整 有 着 很 高 的 延 





迟 ， 这 并 不 适用 于 那些 对 实时 性 有 要 求 的 应 用 。 

















9.3 ”集成 模式 架构 
综合 无 模型 和 基于 模型 的 强化 学 习 方 法 的 优 劣 , 集成 学 习 和 规划 的 过 程 可 以 很 好 地 将 无 模型 
和 基于 模型 的 方法 结合 在 一 起 。 对 于 不 同 的 应 用 场景 ， 集 成 学 习 和 规划 的 方法 和 架构 是 不 同 的 。 





一 般 来 说 ， 在 无 模型 的 方法 中 ,各 
规划 辅助 其 策略 的 学 习 和 提升 。 在 基本 的 基于 模型 
型 学 习 ， 然 后 基于 学 到 的 模型 





HITIA 
学 习 。 








由 于 模型 处 于 智能 体 和 环 ] 
真实 经 验 是 从 智能 体 和 真实 环境 中 直接 采 术 
但 获得 成 本 较 高 ， 并 且 在 真实 环境 中 的 探索 不 可 i 





。 真 实 经 验 : 
了 环境 正确 的 特征 和 
干预 。 





。 模拟 经 验 : 模拟 经 验 是 从 模型 规划 过 
征 ， 但 模型 很 容易 人 工 操纵 ， 并 
对 于 策略 学 习 ， 如 果 我 们 能 够 同时 考虑 真实 经 3 
学 习 的 效率 和 准确 性 。Dyna 
根据 基础 的 基于 模型 的 方法 ， 在 策略 学 习 中 ， 























型 的 方法 的 优势 ， 提 高 
























































贸 能 体 仅 在 与 真实 环境 的 交互 




















这 之 间 ， 在 智能 体 策 


4 的 方法 中 ， 
智能 体 将 迭代 式 采取 规划 并 | 


MSE SI Hf, 
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E3 性 , 
































程 中 获得 的 ， 可 能 不 能 



































更 新 策略 ， 















































直接 策略 学 习 


TOP EE 模型 
行 策略 学 习 学 习 


模型 


智能 体 不 仅 从 已 
并 且 考 虑 了 与 真实 环境 交互 所 收集 到 的 真实 经 验 。 
够 保证 学 习 过 程 中 有 足够 多 的 训练 数据 来 降低 学 习 方差 ， 另 外 ， 真 实 经 验 能 够 更 准 
的 动态 变化 和 正确 特征 ， 从 而 降低 





得 到 真实 的 经 验 ， 没 有 采用 
































获得 的 。 











首先 将 通过 智能 体 和 真实 环境 的 交 
j 收 集 到 的 经 验 进行 策略 




















经 验 来 源 可 以 分 为 如 下 两 类 : 
一 般 来 说 ， 真 实 经 验 体现 
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Cerf 








因此 ， 在 策 








| 于 环境 而 产生 的 学 习 偏差 。 


环境 


ee 
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图 





9.3 Dyna 


架构 





基于 此 架构 ，Dyna-Q 算法 得 
个 Q 表 格 ， 据 此 指导 智能 体 做 虽 














准确 地 表现 真实 环境 的 真实 特 





逆 且 难以 人 工 
































可 以 通过 模型 学 习 减 小 模型 和 真实 环境 的 误差 。 
念 和 模拟 经 验 ， 那 么 就 和 
架构 在 (Sutton, 1991) HEH 
— 





e e i 
。 如 图 9.3 所 示 ， 
的 模拟 经 验 中 
模拟 经 验 能 


验 能 


确 地 体现 环境 

















忽略 学 习 中 ， 








以 进一步 提出 ， 如 算法 9.30 所 述 。Dyna-Q 算法 将 建立 并 维护 














H 动 作 决 策 。 在 每 个 学 习 周 期 中 ，Q 表格 通过 智能 体 和 真实 环境 的 














94 基于 模拟 的 搜索 

















交互 中 学 习 更 新 ， 模 拟 的 模型 同时 也 会 从 真实 经 验 中 学 习 ， 并 且 通 过 规划 获得 ”组 模拟 经 验 用 于 
进一步 的 Q 表格 学 习 。 因 此 ， 随 着 学 习 周 期 的 增加 ，Q 表格 能 够 学 习 并 收敛 到 最 佳 的 结 



























































算法 9.30 Dyna-Q 
初始 化 Q(s,a) fl Model(s,a), KP seS, acA 


while(true): 
(a) s — 当前 《〈 非 终止 ) 状态 
(b) a + e-greedy(s, Q) 
(c) 执行 决策 动作 a; 观测 奖励 7, 获得 下 一 个 状态 s/ 
(d) Q(s,a) + Q(s,a) +a [r + y max, Q(s', a") — Q(s,a)] 
(e) Model(s, a) — r, s' 
(f) HE n 1X: 
s «— 随机 历史 观测 状态 
a «— 在 状态 s 下 历史 随机 决策 动作 
r,s’ + Model(s, a) 
Q(s, a) — Q(s,a) +a [r + y max, Q(s', a") — Q(s,a)] 























9.4 ”基于 模拟 的 搜索 


在 本 节 中 ， 我 们 侧重 于 规划 部 分 ， 并 介绍 一 些 基于 模拟 的 搜索 算法 ， 使 其 在 当前 的 状态 通过 
演算 形成 探索 轨迹 。 因 此 ， 基 于 模拟 的 搜索 算法 一 役 是 使 用 基于 样本 规划 的 前 向 搜索 范式 。 前 向 
搜索 和 采样 具体 的 阐述 如 下 。 
前 向 搜索 ， 在 规划 过 程 中 ， 智 能 体 当前 所 处 马尔 可 夫 过 程 中 的 状态 比 其 他 的 状态 更 值得 关 
注 。 因 而 从 另 一 角度 ， 我 们 将 具有 有 限 选择 的 MDP 看 作 一 个 树 形 的 结构 ， 其 中 树 的 根部 代 
表 当 前 状态 ， 如 图 9.4 所 示 ， 前 向 搜索 算法 从 当前 的 状态 选择 最 佳 的 决策 动作 ， 并 且 通 过 树 
形 结构 的 枝 干 来 考虑 未 来 的 选择 。 
采样 : 当 基于 MDP 采用 规划 过 程 时 ， 从 当前 的 状态 到 下 一 个 状态 可 能 有 多 种 选择 ， 因 而 
规划 中 需要 采样 的 操作 ， 即 智能 体 随机 选 定 下 一 个 状态 并 继续 前 向 搜索 的 演算 过 程 。 因 
下 一 个 状态 的 选取 具有 随机 性 ， 并 且 有 可 能 服从 某 种 概率 或 分 布 ， 具 体 是 由 模拟 中 智 
采取 的 决策 策略 决定 的 。 
在 基于 模拟 的 搜索 中 ， 模 拟 策略 被 用 来 指导 规划 过 程 中 探索 的 方向 。 模 拟 策略 与 智能 体 学 习 
的 策略 相 结合 ， 有 助 于 规划 过 程 能 够 准确 地 反映 智能 体 当前 的 决策 策略 。 
下 面 将 进一步 介绍 几 种 不 同 的 基于 模拟 的 搜索 方法 并 结合 策略 学 习 来 解决 问题 。 
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第 9 章 集成 学 习 与 规划 
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图 94 前 向 搜索 











941 ”朴素 蒙特 卡 罗 搜 索 





























24 
M 


如 果 一 开始 提供 了 固定 的 模型 M 和 固定 的 模拟 策略 Y， 朴 素 蒙特 卡 罗 搜 索 可 以 依据 模拟 得 




















到 的 经 验 来 评估 对 应 动作 的 性 能 好 坏 并 更 新 学 习 到 的 策略 。 如 算法 9.31 所 示 ， 对 每 一 个 作用 于 





























当前 状态 S, 的 动作 a, a € 4， 执 行 模拟 策略 x 并 用 GP 表示 第 个 轨迹 的 全 部 奖励 。 根 据 保存 















































值 选择 最 优 的 动作 。 
算法 9.31 朴素 蒙特 卡 罗 搜 索 





的 轨迹 ， 我 们 利用 Q(54, Ae) 来 评估 选择 动作 A, 的 性 能 ， 最 后 根据 当前 状态 下 所 有 动作 各 自 的 Q 

















固定 模型 M 和 模拟 策略 元 
for 每 个 动作 we Ado 
for 每 个 片段 ke {1,2,--- , K} do 
根据 模型 M 和 模拟 策略 r, 从 当前 状态 5i 开始 在 环境 中 展开 
记录 轨迹 1954, Bias SE, AR Ria, i , Sp} 
计算 从 每 个 S54 开始 的 累积 奖励 GE = OT, RY 


end for i 
"we 
Q(5,,a) = FG: 
k=l 




















返回 当前 最 大 Q 值 的 动作 A, = arg max,c 4 Q(S;, a). 











9.4.2 ”蒙特 卡 罗 树 搜索 

















朴素 蒙特 卡 罗 搜 索 的 一 个 明显 不 足 是 ， 它 的 模拟 策略 是 固定 的 ， 从 而 没有 办 法 利用 在 规划 
程 中 学 习 到 的 信息 。 蒙 特 卡 罗 树 搜索 (Monte Carlo Tree Search, MCTS) (Browne et al., 2012) 

















FA E 





是 针对 这 个 不 足 所 设计 的 。 有 具体 地 说 ，MCTS 维护 了 一 棵 搜索 树 来 保存 收集 到 的 信息 并 逐步 优化 





模拟 策略 。 








如 算法 9.32 所 示 ， 在 从 当前 的 状态 Se 开始 采样 到 一 个 轨迹 之 后 ， 对 于 轨迹 
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FPF 所 有 访问 过 的 
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(s,a), MCTS 类 似 地 使 用 平均 
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策略 To 


Ne 


当前 并 不 在 























个 更 新 模拟 策略 x 




















算法 9.32 蒙特 卡 罗 树 搜索 





报 更 
的 方法 是 根据 当前 Q 值 的 。 贪心 策略 。 当 模拟 策略 到 达 一 个 新 的 
搜索 树 中 的 状态 的 时 候 ，r 转换 成 默认 
新 状态 会 接着 被 加 入 搜索 树 ! 
算 。 最 后 ， 智 能 体 选择 在 当前 状态 S, 上 有 最 大 Q 


。1 MCTS 重复 这 个 节点 评估 和 策略 提升 的 过 程 














新 了 Q 值 ， 进 而 根据 树 中 新 的 Q 值 更 新 每 个 节点 处 的 模拟 
































的 策略 ， 比 如 均匀 探索 策略 。 第 一 个 被 探索 的 


直到 到 达 模 拟 的 预 

















值 的 动作 。 





固定 模型 M 





初始 化 模拟 策略 m 
for 每 个 动作 ae Ado 
for 每 个 片段 ke {1,2,---,K} do 





根据 模型 M 和 模拟 策 


























各 7 从 当前 状态 S, 在 环境 
记录 轨迹 {S:, a, Ri+ı, $a, Ata, Rize, Tm ST) 

















展开 














从 (Si, At)» At = a 开始 的 平均 回报 更 新 每 个 (5;, 4;),i =t,--- TH Q fü 
由 当前 的 Q 值 更 新 模拟 策略 x 
end for 
end for 
返回 当前 最 大 Q 值 的 动作 Ay = arg maxae 4 @(S1, a) 











9.4.3 时间 差分 搜索 


除了 MCTS B 


的 方法 ， 时 间 差 分 〈Temporal Difference, TD) 搜索 同 档 
2012)。 和 MCTS 的 方法 相 比 ，TD 搜索 不 需要 演算 一 个 扩展 轨迹 并 / 


EF 受到 关注 (Silver et al., 
其 来 评估 和 更 新 当前 策略 。 









































A 








在 模拟 的 每 一 步 ， 








策略 都 将 被 更 


, 





























新 并 














j 更 新 的 策略 指导 智能 体 在 下 一 个 状态 中 做 出 决策 动作 。 
































Dyna-2 算法 前 
组 网 络 参 数 ， 分 别 








LER 


存储 于 长 期 存储 











期 存储 空间 中 的 
网 络 参数 O 用 了 























网 





络 





1 TD 搜索 的 方式 (Silver et al., 2008)， 如 算法 9.33 所 述 ， 智 能 体 将 存储 两 








" 
T |H 


参数 将 会 根据 收集 到 























J 和 短期 存储 空间 。 在 下 层 中 通过 采用 TD 学 习 的 方法 ， 短 


的 模拟 经 验 进 行 更 新 ， 并 在 策略 Q 的 指导 下 将 学 到 的 










































































帮助 智能 体 在 真实 环境 中 做 出 决策 动作 ， 








而 在 长 期 存储 空间 的 网 络 参数 将 在 真实 














环境 的 探索 : 








和 MCTS 





通过 在 上 
最 终 智能 体 学习 到 的 最 
的 方法 相 
更 新 ，TD 搜索 倾向 于 降低 结果 




















佳 策略 。 











AY TD 学 习 得 到 更 


比 ， 由 于 每 一 步 策略 都 会 更 新 ，TD 搜索 会 更 有 效率 。 然 而 ， 由 于 
的 方差 但 


Bo TELE! 














学 习 到 的 基于 网 络 参数 0 的 策略 Q 将 是 











EI 
KE 











可 能 增 大 偏差 。 














! 另 一 个 方法 是 将 轨迹 上 所 有 新 的 节点 都 加 入 搜索 树 中 。 








算法 9.33 Dyna-2 
function LEARNING 
初始 化 Fs 和 万 
0 —0 8 初始 化 长 期 存储 空间 中 网 络 参数 
loop 
S 《一 So 
0 —0 # 初始 化 短期 存储 空间 中 网 络 参 数 
z 0 # 初始 化 资格 迹 
SEARCH(s) 
a € 1(s;Q) # 基于 和 Q 相关 的 策略 选择 决策 动作 
while s 不 是 终结 状态 do 
执行 a, 观测 奖励 > 和 下 一 个 状态 s 
(Fs, Fr) € UpdateModel(s, a,r, s”) 
SEARCH(s’) 
a! + n(s'; Q) # 选择 决策 动作 使 其 用 于 下 一 个 状态 s 
d+ r 4- Q(s', a^) — Q(s,a) # 计算 TD-error 
0 — 0 t- o(s, a)óz # 更 新 长 期 存储 空间 中 网 络 参 数 
zt Az+o # 更 新 资格 迹 
s+} s', a «— al 
end while 
end loop 
end function 




































































function SEARCH(s) 
while 时 间 周 期 内 do 
zc0 # 清除 短期 存储 的 资格 迹 
a € 7(s; Q) # 基于 和 Q 相关 的 策略 决定 决策 动作 
while s 不 是 终结 状态 do 





























8 + Fs(s,a) # 获得 下 一 个 状态 

r+ F,(s,a) # 获得 奖励 

a! +- 7(s'; Q) 

ó — R+Q(s',a’) — Q(s,a) # 计算 TD-error 

















06--a(s,a)óz # 更 新 短期 存储 空间 中 网 络 参数 
ZeAZ+¢4 # 更 新 短期 存储 的 资格 迹 
s¢ sata’ 
end while 
end while 
end function 
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分 层 强 化 学 习 



































在 本 章 中 ,我 们 将 介绍 分 层 强 化 学 习 。 它 是 一 种 通过 构建 并 利用 认 知 和 决策 过 程 的 底层 结构 
来 提高 学 习 效 果 的 方法 。 有 具体 来 说 ， 首 先 我 们 将 介绍 了 分 层 强化 学 习 的 背景 和 两 个 主要 类 别 : 选 
项 框架 (Options Framework) 和 封建 制 强化 学 习 〈Feudal Reinforcement Learning)。 然 后 我 们 将 详 
细 介 绍 这 些 类 别 中 的 一 些 典 型 算法 ， 包 括 战略 专注 作家 (Strategic Attentive Writer). RIA 
COption-critic) 和 封建 制 网 络 (Feudal Networks) 等 。 在 本 章 的 最 后 ,我 们 对 近年 来 关于 分 层 强化 
学 习 的 研究 成 果 进 行 了 总 结 。 
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10.1 简介 





近年 来 ， 深 度 强化 学 习 在 许多 领域 取得 了 显著 的 成 功 (Levine et al., 2018; Mnih et al., 2015; 
Schulman et al., 2015; Silver et al., 2016, 2017)。 然而 , 长 期 规划 对 智能 体 来 说 仍然 是 一 个 挑战 , 特别 
是 在 一 些 奖励 稀 艳 、 大 时 间 跨 度 的 环境 ,例如 Dota (OpenAL, 2018) 和 《星际 争霸 》 (Vinyals et al., 
2019)。 分 层 强 化 学 习 (Hierarchical Reinforcement Learning, HRL) 提供 了 一 种 方法 来 寻找 这 种 
复杂 控制 问题 中 的 时 空 抽象 和 行为 模式 (Bacon et al., 2017; Barto et al., 2003; Dayan, 1993b; Dayan 
et al., 1993a; Dietterich, 1998, 2000; Hausknecht, 2000; Kaelbling, 1993; Nachum et al., 2018; Parr et al., 
1998a; Sutton et al., 1999; Vezhnevets et al., 2016, 2017)。 与 人 类 认 知 的 层次 结构 类 似 ，HRL 具备 抽 
象 多 层次 控制 的 潜力 ， 其 中 高 层次 的 长 期 规划 和 元 学 习 指导 低层 次 的 控制 器 。 层 次 结构 的 模块 化 
也 提供 了 可 移植 性 和 可 解释 性 , 例如 , 理解 地 图 和 达到 有 利 状 态 的 技术 通常 在 像 grid-world (Tamar 
et al., 2016) 或 者 Doom (Bhatti et al., 2016; Kempka et al., 2016) 这 样 的 游戏 中 十 分 有 用 。 

以 往 对 HRL 的 研究 大 多 从 4 个 主要 方面 展开 : 选项 框架 (Options Framework) (Sutton et al., 
1999)、 封 建制 强化 学 习 (Feudal Reinforcement Learning, FRL) (Dayan et al., 1993a)、MAXQ 分 解 
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(MAXQ Decomposition) (Dietterich, 2000) 和 层次 抽象 机 (Hierarchical Abstract Machines, HAMs) 
(Parr et al., 1998a,b) 在 选项 框架 中 ， 高 层 策略 会 在 特定 的 时 间 步 上 切换 低层 策略 ， 以 便 在 时 间 域 


JE 


的 状态 


中 





分 解 问 题 。 在 FRL 











| 象 方法 。HAMs 则 

















智能 体能 执行 的 动作 受 
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学 习 的 最 新 研究 成 果 。 
尾 对 深度 HRL 进行 了 简要 
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智能 体 中 ， 高 层 控制 器 负责 为 下 层 控制 器 提出 明确 
状态 )， 来 实现 状态 空间 的 层次 分 解 。MAXQ 分 解 也 提出 了 一 种 将 子 任务 的 解 三 
考虑 了 一 个 学 习 过 程 来 减少 大 型 复杂 问题 中 的 搜索 空间 ， 其 学 习 过 程 
民 于 有 限 状态 机 的 层次 。 在 本 章 中 ， 我 们 将 重点 介绍 在 HRL 中 应 ) 
\ 体 来 说 ， 我 们 讨论 了 分 别 属于 选项 框架 和 FRL 的 两 种 算法 ， 并 在 本 


的 总 结 。 
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时 序 上 的 隐 式 分 割 点 ， 来 表示 相应 的 子 策略 
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种 具 


项 框架 (Hausknecht, 2000; Sutton et al., 1999) 将 动作 在 时 间 


fi 
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3 Hé. WIM (Options), th 
(Da Silva et al., 2012) 或 者 宏 操 作 (Hauskrecht et al., 1998; Vezhnevets et al., 2016), J& 
满足 终止 条 件 为 止 。 终 止 条 件 是 一 类 
己 的 工作 ， 且 顶层 的 选项 策略 (Policy- 





Over-Action) 需要 切换 至 男 一 个 选项 。 给 定 一 个 状态 集 为 6、 动作 集 为 A 的 MDP， 选项 we 0 




























































































被 定义 为 三 元 组 (Iw, Tw, bu) H! 

HERK, M 6. :S 一 

只 有 在 s 

Hg 

由 

能 包含 一 个 用 于 靠近 、 抓 取 和 
尤其 特别 的 是 ， 一 个 选项 框架 

个 
























































选项 策略 选择 一 个 选项 










































































I, € S 为 一 组 初始 状态 集 ，rw :S x A [0,1] 是 一 个 选项 
0, 1] 是 一 个 通过 伯 努 利 分 布 提供 随机 终止 条 伯 
I 时， 才能 用 于 状态 s。 一 个 智能 体 通 过 
直到 终止 条 件 满足 ， 然 后 再 次 查询 选项 策略 并 重复 该 步骤 。 注 意 ， 若 选项 w 
相应 的 策略 rw 进行 选择 ， 直 到 选项 根据 bo 被 随机 终止 。 比 如 说 ， 一 个 名 为 “开门 ”的 选项 可 
转动 门 把 手 的 策略 ， 以 及 一 个 确定 门 被 打开 概率 的 终止 条 件 。 


F 的 终止 函数 。 一 个 选项 w 


， 并 继续 保持 该 策 
被 执行 ， 则 动作 将 





1 两 层 结构 组 成 : 底层 的 每 个 元 素 是 一 个 选项 ， 而 顶层 则 是 一 
选项 策略 ， 用 来 在 片段 开始 或 上 个 选项 终结 时 候选 择 一 个 选项 。 选 项 策略 从 环境 给 出 的 奖励 信 


























息 学 习 ， 而 选项 可 通过 明确 的 子 目标 来 学 习 。 例 如 ， 在 表格 情况 下 ， 每 个 状态 


的 候选 (Schaul et al., 2015; Wiering et al., 1997)。 
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AS 


MDP. 


an 


标准 技术 来 进行 学 习 。 























Bb ee 





在 选项 框架 








， 顶 层 模块 学 习 的 是 


个 选项 策略 ， 而 底层 模块 学 习 





。 这 可 以 看 成 马尔 可 夫 过 程 7 














(Sutton et al., 1999)， 如 图 
EN 
中 的 顶 
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层 选项 


^E EST [R] 
Markov Decision Process, SMDP) 为 动作 间 持 续 时 间 
10.1 所 示 。 
F(t|s, a) 给 出 在 状态 s 下 执行 动作 a 时 ， 转 移 时 
屋 控 制 可 以 被 看 成 一 个 SMDP 上 的 策略 。 对 于 多 级 选项 的 情况 ， 更 高 
在 时 间 上 进一步 扩展 的 SMDP (Riemer et al., 2018). 


==] 


Z 











一 县 给 出 了 选项 ， 则 顶层 可 以 将 其 作为 动作 ， 通 


可 以 被 看 作 子 目 标 


























能 完成 各 个 选项 目标 的 策 
〈 几 个 时 间 步 ) 上 的 分 解 。 半 马尔 可 夫 决 策 过 程 (Semi- 


















































1L 备 不 确定 性 的 选项 框架 提供 
SMDP 是 一 个 具备 额外 元 素 F: (S, A, P, R, F) 的 标准 
IZ t 的 概率 。 不 严谨 地 说 ， 选 项 框 














个 理论 观 

















层 的 选项 可 以 看 成 
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时 间 


10.1 在 SMDP 视角 下 的 选项 ， 改 编 自 文献 (Sutton et al, 1999). 顶部 ， 一 个 马尔 可 夫 决 策 过 程 
(MDP) 的 状态 轨迹 。 中 部 ， 一 个 半 马 尔 可 夫 决 策 过 程 ( SMDP ) 的 状态 轨迹 。 底 部 : 一 
个 两 层 结构 上 MDP 的 状态 轨迹 。 实 心 圆 表示 SMDP 的 决策 ， 而 空心 圆 则 是 相应 选项 包含 
的 原始 动作 








欧 















































研究 表明 ， 人 工 定 义 的 选项 通过 和 深度 学 习 的 结合 ， 即 使 在 像 《我 的 世界 》 和 雅 达 利 游戏 这 
样 很 有 挑战 性 的 环境 中 ， 也 可 以 取得 显著 的 效果 (Kulkarni et al., 2016; Tessler et al., 2017)。 然 而 ， 
初始 集 和 终结 条 件 是 选项 框架 的 一 个 制约 因素 。 例 如 个 人 工 定义 的 策略 rw 是 让 移动 机 器 人 
插 上 它 的 充电 器 ， 而 它 很 有 可 能 是 只 为 充电 器 在 视野 范围 内 的 状态 而 定制 的 。 终 结 条 件 表 明 当 机 
器 人 成 功 插 上 充电 器 或 者 状态 在 Lu 之 外 时 ,终结 的 概率 为 1。 因此， 如 何 自 动 地 发 掘 选项 也 曾 是 
HRL 的 一 个 研究 主题 。 我 们 将 介绍 两 种 算法 ， 它 们 将 选项 发 掘 表示 为 优化 问题 ， 并 用 函数 逼近 的 
方式 解决 这 类 问题 。 第 一 个 是 一 种 深度 递归 神经 网 络 ， 被 称 为 战略 专注 作家 (Strategic Attentive 
Writer，STRAW )， 它 通过 开 环 选项 内 置 策 略 ! COpen-Loop Intra-Option Policies) 学 习 选 项 。 第 二 
个 则 是 考虑 闭环 选项 内 置 策略 2〈Close-Loop Intra-Option Policies) 的 选项 -批判 者 〈Option-Critic ) 
结构 。 





























































































































10.2.1 战略 专注 作家 


战略 专注 作家 (Vezhnevets et al., 2016) 是 一 种 新 奇 的 深度 递归 神经 网 络 结构 。 它 对 常见 的 动 

作 序 列 《〈 宏 动作 ) 进行 时 域 抽象 ， 并 通过 这 些 动作 进行 端 到 端的 学 习 。 值 得 注意 的 是 ， 宏 动作 是 

个 在 神经 网 络 中 隐 式 表示 的 特定 选项 。 其 动作 序列 (或 者 在 此 之 上 的 分 布 ) 是 在 宏 动作 被 初始 
化 的 时 候 决 定 的 。STRAW 分 别 包 含 短期 动作 分 布 和 长 期 计划 这 两 个 模块 。 

第 一 个 模块 将 环境 的 观测 数据 转化 为 一 个 动作 -计划 (Action-Plan), 它 是 一 个 显 式 (Explicit) 


1 开 环 意 即 不 将 控制 的 结果 反馈 ， 进 而 影响 当前 控制 的 系统 。 
2 闭环 意 即将 控制 的 结果 进行 完全 反馈 ， 进 而 影响 当前 控制 的 系统 。 
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TUT 














的 随机 变量 ， 用 于 表示 接 下 来 一 段 时 间 内 计划 执行 的 动作 。 当 时 间 步 为 二 时 ， 动 作 -计划 表示 为 
阵 A e RI4IlxT， 其 中 工 是 计划 的 最 大 时 间 跨 度 ， 而 在 A 中 的 第 r 列 对 应 动作 在 时 间 步 i++r 的 
分 对 数 。 

第 二 个 模块 通过 单行 矩阵 ct e RIXT 维护 承诺 -计划 (Commitment-Plan)， 即 一 个 决定 在 哪 
一 步 网 络 结束 一 个 宏 动 作 并 更 新 动作 -计划 的 状态 变量 。 在 时 间 步 为 t+ 时 ，c7! 的 第 一 个 元 素 提 
供 了 终止 条 件 的 伯 努 利 分 布 的 参数 。 在 落实 计划 的 期 间 ， 行动 -计划 At 和 承诺 -计划 ct 都 被 一 个 
时 间 移 位 运算 符 o 直接 滑动 至 下 一 步 ， 其 中 p 通过 移 除 矩 阵 的 第 一 列 并 在 末尾 添 0 的 形式 来 移动 
矩阵。 

图 10.2 显示 了 一 个 包含 动作 -计划 和 承诺 -计划 的 STRAW 工作 流 示 例 。 为 了 更 新 这 两 类 计划 ， 
STRAW 在 时 间 维 度 上 使 用 了 专注 写作 技术 (Gregor et al., 2015)， 它 使 网 络 能 够 聚焦 在 当前 部 分 。 
该 技术 将 一 个 高 斯 滤波 器 矩阵 沿 着 时 间 维 度 应 用 于 计划 。 更 准确 地 说 ， 对 于 时 间 大 小 IX. 
|A| x K 一 维 高 斯 滤波 器 的 网 格 通过 指定 网 格 中 心 的 坐标 和 相 邻 过 滤器 之 间 的 步 幅 来 在 计划 中 定 
位 。 注意， 这 里 的 步 幅 (Stride) 和 CNN 中 的 相同 术语 相似 。 让 v^ 作为 动作 -计划 的 注意 力 参数 ， 
即 高 斯 滤波 器 的 网 格 位 置 、 步 幅 和 标准 差 。STRAW 将 注意 力 操作 定义 如 下 : 

























































































































































































D = write(p, V); B, = read( A*, v), (10.1) 


A! E y AS LP y. A3 —P » A4 Action Space 


Left 
Right 
Up 
Down 


Commitment Plan c M AU C 2 P x c? -一 一 c4 


Action Plan 






















































































9g1=1* cual > ja nmi 3 n mit 1 replan 
STRAW AS | : LUN Y us 
ConvNet l 
oni NC | (EN | 
| l l | 
Time = | = | t=3 | #22=4 | t=5 
图 10.2 STRAW 在 一 个 迷宫 导航 游戏 中 的 工作 流程 ， 改 编 自 文献 (Vezhnevets et al, 2016). RMB 
ERE cs 以 是 蓝 色 、 黑 色 、 红 色 和 绿色 , 分 别 代 表 墙 、 走廊 、 智 
能 体 和 最 终 目 的 地 。 动 作 空 间 为 上 、 下 、 左 、 右 四 个 方向 的 移动 。 当 t= 1 时 ， 帧 的 特 
征 被 一 个 卷 积 神 PARURE AE a STRAW 立刻 产生 两 个 计划 。 在 紧 接 着 的 2 
个 时 间 步 中 ， 这 两 个 计划 被 p 滑动 。 之 后 ， 智 能 体 来 到 角落 并 RE 计划 ct 给 出 一 个 


重新 计划 的 信号 ( 见 彩 插 ) 
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KB, pe R^*K 是 一 个 时 间 窗 口 为 K 的 计划 补丁 。write 操作 生成 了 一 个 与 A! 相同 大 小 
的 平滑 计划 D, m read 操作 生成 了 一 个 读 取 补 丁 Bl € 了 R4xK 。 此 外 ， 将 z 作为 在 时 间 步 t 下 的 
观测 数据 的 特征 表示 ， 并 将 相似 的 注意 力 技术 应 用 于 承诺 -计划 ， 计 划 的 更 新 算法 如 算法 10.34 所 
示 。 其 中 fv. fA 和 f° 都 是 线性 函数 ，h 是 一 个 多 层 感知 器 ，b e RIT 是 一 个 具有 相同 标量 参 
Alb 的 偏差 ， 而 e 是 固定 为 40 的 标量 (Vezhnevets et al., 2016)， 以 便 经 常 重新 做 计划 。 











































































































算法 10.34 STRAW 中 的 计划 更 新 
if g = 1 then 
计算 动作 -计划 的 注意 力 参 数 v = f" (i) 
应 用 专注 阅读 : GB, = read(A'-!, wA) 
计算 中 间 表 示 e = h(concat( Bz, zi)) 
计算 承诺 -计划 的 注意 力 参 数 Vm Lt (concat(V^, €x)) 
更 新 A' = (AC) + write( file), vA) 
更 新 c, = Sigmoid(b + write(e, Wf)) 
else 















































p(A‘*) 
p(cr— 


d At = 
HH c= Y 




















对 于 进一步 的 结构 化 搜索 , STRAW 在 对 角 高 斯 分 布 上 使 用 了 重 参 数 技术 @(zi|G) = N (a), 
c(G)), RP c 是 特征 提取 器 的 输出 。STRAW 的 训练 loss 被 定义 如 下 : 


























T 
£ — MA) + ogiKL(QGa|G)| Pa) + Aci), (10.2) 


t=1 


其 中 , DL ER ETA BR CP TEL FR OT BULA, Pla) 是 一 个 先决 条 件 ， 而 最 
后 一 项 惩罚 了 重新 计划 并 鼓励 承诺 。 

要 特别 注意 的 是 , STRAW 是 一 个 网 络 结构 。 对 于 强化 学 习 的 任务 , 可 以 使 用 一 系列 的 强化 学 
习 算 法 。 文 献 (Vezhnevets et al., 2016) 展示 了 在 《2D 迷宫 》 和 雅 达 利 游戏 上 使 用 A3C (Mnih et al., 
2016) 算法 的 效果 。《2D 迷宫 》 是 由 许多 格子 组 成 的 一 个 2D 网 格 世界 ， 其 中 每 个 格子 只 可 能 是 
墙壁 或 者 通道 ， 而 其 中 ， 某 个 通道 会 随机 选择 为 目的 地 。 智 能 体 将 完全 观测 到 迷宫 的 状态 ， 并 需 
要 通过 结构 化 探索 来 到 达 目 标 。 在 本 任务 中 ， 文 献 (Vezhnevets et al., 2016) 展示 了 STRAW 在 策 
略 上 的 表现 优 于 LSTM， 并 且 很 接近 由 Dijkstra 算法 给 出 的 最 优 策 略 。 在 雅 达 利 游戏 领域 中 ， 文 
HA (Vezhnevets et al., 2016) 选 出 了 8 个 需要 一 些 规划 和 探索 的 游戏 ， 其 中 STRAW 及 其 变 体 在 8 个 
游戏 中 的 6 个 里 ， 比 LSTM 和 简单 前 馈 网 络 在 游戏 中 获得 了 更 高 的 分 数 。 
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10.2.2 ”选项 -批判 者 结构 


选项 -批判 者 结构 COption-Critic Architecture) (Bacon et al., 2017) 将 策略 梯度 定理 扩展 至 选 
项 ， 它 提供 一 种 端 到 端的 对 选项 和 选项 策略 的 联合 学 习 。 它 直接 优化 了 折扣 化 回报 。 我 们 先 考 虑 
将 选项 -价值 函数 定义 如 下 : 



























































Qals w) = M m(als)Qu(s,w, a), (10.3) 

















其 中 Qu : 5 x 1 x A 二 民 是 在 确定 状态 -选项 对 (s, w) 后 执行 某 个 动作 的 价值 : 














Qu(s,w,a) = R(s,a) y p(s'|s,a)U(w, s"), (10.4) 




















H'BU:0xS—oRJÉA-—T MS s 时 ， 执 行 w 的 价值 : 























U(w, s) = (1 — Bols) Qal, w) + Buls) Vols), (10.5) 














IT 








Vo : S 一 及 是 选项 的 最 优 价值 函数 ， 




















k—1 
Vals’) = may E, [D Poe + 7 Va (S) = $"), (10.6) 


























其 中 天 是 w 在 状态 s 中 的 预计 持续 时 间 。 因 此 ， 我 们 可 以 定义 Ag: Sx 0 2 R 为 选项 的 
优势 函数 : 








Ao(s,w) = Qa(s,w) — Vo(s). (10.7) 












































如 果 选 项 wi 曾 被 初始 化 或 者 已 经 在 状态 S. 中 执行 了 + 个 时 间 步 ， 通 过 将 状态 -选项 对 视 为 马 











2 7, (a| Si) PSl St a). — Bos Si) looi + Ba (Se41) 0 (wea Se41)]- (10.8) 




















通过 假设 所 有 选项 在 任何 地 方 都 可 用 ， 上 述 转移 是 一 个 在 状态 -选项 对 的 唯一 稳 态 。 

用 于 学 习 选 项 的 随机 梯度 下 降 算法 的 结构 如 图 10.3 所 示 ， 其 中 梯度 由 定理 10.1 和 定理 10.2 
给 出 。 然而, 文献 (Bacon et al., 2017) 提出 了 通过 一 种 基于 两 种 时 间 尺 度 结构 来 学 习 价 值 ， 在 更 新 
选项 内 置 策略 使 用 更 快 的 时 间 尺 度 ， 而 更 新 终止 函数 时 使 用 比例 更 小 的 时 限 (Konda et al., 2000). 
我 们 可 以 从 行动 者 -批判 者 结构 中 看 出 ， 选 项 内 置 策略 、 终 止 函 数 和 选项 策略 都 属于 行动 者 的 部 
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分 ， 而 批判 者 则 包括 Qu 和 Age 

















图 103 选项 -评判 家 结构 ， 改 编 自 文献 (Bacon et al, 2017) 


定理 10.1 选项 内 置 策略 梯度 理论 CIntra-Option Policy Gradient Theorem) (Bacon et al., 2017) 给 
定 一 组 马尔 可 夫 选 项 ， 随 机 选项 内 置 策略 对 它们 的 参数 0 可 微 。 折 扣 化 回报 期 望 关 于 0 和 初始 条 
fr (8,0) 的 梯度 为 


rw o(a|s) 


J Hols, 18,0) >) — Qu(s,w, a), (10.9) 





其 中 uo(s,w|$,2) = Y Y p(9« = s, wy = w|So = $ wo = 8) 是 一 个 沿 着 从 (8,0) 开始 的 轨 
迹 的 状态 -选项 对 的 折扣 化 权重 。 
定理 10.2 终止 梯度 定理 (Termination Gradient Theorem) (Bacon et al., 2017) 给 定 一 组 马尔 可 夫 
选项 ， 选 项 的 随机 终止 函数 对 其 参数 o 可 微 。 折 扣 化 回报 目标 期 望 对 于 y 和 初始 条 件 (8,0) 的 





X 


E 5 no(s',w|8, d) 


s!,w 


8B, o(s! 
eel Ans E (10.10) 





其 中 uols, wli, @) = Yo VPS = 5, we = w|So = £ wo = à) 是 一 个 沿 着 从 (8,0) 开始 的 轨迹 的 
状态 -选项 对 的 折扣 化 权重 。 





304 


10.3. 封建 制 强化 学 习 

















文献 Bacon et al., 2017) 提供 了 离散 和 连续 环境 下 的 实验 。 在 离散 环境 中 ， 文 
2017) 在 雅 达 利 学 习 环境 (Arcade Learning Environment, ALE) (Bellemare et al., 2013) 中 训练 了 4 



































个 雅 达 利 游戏 ， 这些 训练 与 文献 (Mnih et al., 2015) 采取 了 相同 的 设置 。 结 果 表 明 ， 

















其 目的 地 也 随机 生成 。 通 过 选项 -所 

































































献 (Bacon et al., 

















选项 -批判 者 能 














够 在 这 全 部 4 个 游戏 中 学 到 结构 选项 。 在 连续 环境 中 ， 文 献 (Bacon et al., 2017) 选择 了 Pinball 游 
XX (Konidaris et al., 2009)， 游 戏 中 智能 体 控制 一 个 小 球 在 随机 形状 的 多 边 形 2D 迷宫 中 进行 移动 ， 









































b 判 者 学 习 到 的 轨迹 表明 ， 智 能 体 可 以 实现 时 域 抽象 。 








10.3 ”封建 制 强化 学 习 
封建 制 强化 学 习 《〈Feudal Reinforcement Learning, FRL) (Dayan et al., 1993a) 提出 了 一 种 封建 











励 隐藏 指 的 是 ， 无 论 某 管理 者 做 出 的 指令 是 否 能 使 其 上 级 满意 ， 该 管理 者 的 下 级 都 必须 服从 。 而 


















































制 等 级 结构 。 其 中 ， 管 理 者 有 着 为 他 们 工作 的 下 级 管理 者 和 他 们 自己 的 上 级 管理 者 。 它 反映 了 封 
































建 等 级 制度 ， 其 中 每 层 的 各 个 管理 者 可 以 为 他 们 的 下 级 设置 任务 、 奖 励 和 惩罚 。 有 两 个 保证 封建 









































制 规则 的 关键 原则 需要 被 重视 : 奖励 隐藏 (Reward Hiding) 和 信息 隐藏 (Information Hiding )。 奖 



























































言 息 隐藏 是 指 管理 者 的 下 级 不 知道 该 管 























































































































: 里 者 被 派 予 的 任务 ,而 管理 者 的 上 级 也 不 知道 该 管理 者 给 
其 下 级 安排 了 什么 任务 。 顶 层 的 封建 智能 体 并 非 像 选 项 框架 那样 学 习 一 个 选项 的 时 间 分 解 ， 而 是 










































































封建 制 网 络 (Feudal Networks，FuNs)。 它 可 以 自动 发 现 子 目 标 , 并 且 具 备 奖 励 隐 


软 条 件 。 





























通过 为 底层 策略 制定 明确 目标 来 分 解 状态 空间 的 问题 。 这样 的 结构 允许 强化 学 习 扩 展 到 管理 层 之 
间 有 具有 明确 分 工 到 大 型 领域 中 。 
在 这 种 解 耦 学 习 的 启发 下 ,文献 (Vezhnevets et al., 2017) 引入 了 一 种 新 的 神经 








网 络 结构 ， 称 为 
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CPG RUNS Soin BS), EASE WI A BES Te] AR, Eb, SERENA 
策略 修正 的 分 层 强化 学 习 (Hierarchical Reinforcement Learning with Off-policy Correction, HIRO) 


























10.3.1 

















封建 制 网 络 





可 进一步 提高 了 离线 策略 经 验 的 样本 效率 (Nachum et al., 2018)。 实 验 显 示 ，HIRO 取得 了 显著 的 
进展 ， 并 且 能 解决 非常 复杂 的 结合 运动 和 基本 物体 交互 的 问题 。 


H% (Feudal Networks, FuNs) 是 一 个 完全 可 微 模块 化 的 FRL 神经 网 络 ， 它 有 两 个 


























模块 : 管理 者 和 工作 者 。 管 理 者 在 一 个 潜在 状态 空间 中 更 低 的 时 间 分 辨 率 上 设 定 



































则 学 习 妇 
SEA: 








目标 ， 而 工作 者 





中 何 通过 内 在 奖励 达到 目标 。 图 10.4 展示 了 FuN 的 结构 ， 其 中 前 向 过 程 可 以 描述 成 以 下 

















z= TOUS 
M; = ‘ee S 


h, gt = f" (mz, hi! 1); gi = lil; 


(10.11) 
(10.12) 
(10.13) 
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t 
wr = | 2 «| (10.14) 
i—t—c 


po Uu f (ze, h) (10.15) 
7, = SoftMax(U;w;) (10.16) 

















-- 策 略 梯度 





工作 者 
图 104 FuN 的 结构 ， 改 编 自 文献 (Vezhnevets et al, 2017)。 在 文献 (Vezhnevets et al, 2017) 中 ， 超 参 


























Rk Rd REA k= 16 < d= 256 









































其 中 z 是 8 HORS, fron 向 管理 者 提供 状态 meo Tli gy 表示 管理 者 输出 的 目标 。 在 FRL 
中 需要 注意 以 下 两 个 原则 : 管理 者 和 工作 者 之 间 没 有 梯度 传播 ;但 接收 观测 数据 的 感知 机 模块 
freee 共享 。 管理 者 的 mm 和 工作 者 的 Po 都 是 循环 模块 ，fMspaee 是 全 连接 的 。hM 和 hw 分 
别 对 应 管理 者 和 工作 者 各 自 的 内 部 状态 。4 是 一 个 无 偏 线性 变换 ， 将 目标 gi BUM RA TF 
量 wre Ui 表示 动作 的 嵌入 矩阵 ， 它 通过 矩阵 与 wi 的 积 输 出 工作 者 动作 策略 的 分 对 数 。 

考虑 到 标准 强化 学 习 的 设置 是 最 大 化 折扣 化 回报 Gi = S oy" Res 一 个 自然 而 然 的 学 习 
整个 结构 的 方法 就 是 通过 策略 梯度 算法 进行 端 到 端 训练 ， 因 为 FuNs 全 部 可 微 。 然 而 这 样 会 导致 
梯度 会 被 工作 者 通过 任务 目标 传播 给 管理 者 ， 这 可 能 导致 目标 会 变 成 一 个 内 部 潜在 变量 ， 而 不 是 


分 层 标志 。 因 此 ，FuN 分 别 训练 管理 者 和 工作 者 。 对 于 管理 者 ， 更 新 规则 遵循 预测 优势 方向 : 










































































































































































































































































Vgi = (Gi a VM (Sa, 9))Vodcos(Mt+e — Mi, g+(0)) (10.17) 
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训练 工作 者 ， 软 化 了 原始 FRL ! 


















































的 奖励 隐藏 条 件 ， 其 




















其 中 ， VM Ae FEST ES 48 ER UC, 而 dcos (ex, B) = a™B/(\a||B}) 是 余弦 相似 度 。 53— Jj IB xc: 
作者 可 以 通过 任意 现成 的 深度 强化 学 习 方式 训练 ，3 

















其 内 在 奖励 定义 如 下 : 





1 c 
Ri = T 5 deos (m E TI4 i; Gt-i) (10.18) 





























， 状 态 空间 中 的 方向 偏 移 为 目标 提供 了 结构 不 变性 。 在 实践 中 ，FuN 通过 使 用 尼 + aR} 

















a 是 一 个 正则 化 内 在 奖励 影响 的 超 参 数 。 


wr 




















文献 (Vezhnevets et al., 2017) 也 提供 了 一 个 关于 管理 者 训练 规则 的 理论 分 析 。 考 虑 到 有 高 层 


跨 策略 的 策略 o(54,0)， 它 在 
分 布 p(Si4c|S4,o0) 可 以 被 看 作 一 个 转移 策 
们 可 以 在 高 层 MDP 对 aT (S;4..[5;, 0) 应 | 





Ver? (Stire| St, 0) 











固定 时 长 c 下 ,在 几 个 子 策 














咯 中 进行 选择 。 对 每 个 子 策略 来 说 ， 转 移 

















各 TT (Ste St, 0). 和 选项 框架 的 SMDP 视 类 似 ， 我 
































策略 梯度 理论 。 


((G, — VM (Si, 0))Vo log p(Si+¢| St, 0)] (10.19) 


这 也 被 称 为 转移 策略 梯度 (Transition Policy Gradients). 假设 方向 8,4. — Si 遵循 Mises-Fisher 


分 布 ， 我 们 可 以 得 到 logp(Stre|Si,0) x deos(St4 
此 外 ， 文献 (Vezhnevets et al., 2017) 提出 了 用 于 管理 才 














c 一 St, gt) o 


























的 Dilated LSTM， 与 空洞 卷 积 一 样 ， 可 








以 在 分 辩 率 无 损 的 情况 下 获取 更 大 的 感受 野 。Dilated LSTM 维持 了 几 个 内 部 LSTM 单元 的 状态 。 
在 任意 时 间 步 中 ， 只 有 一 个 单元 状态 被 更 新 ， 而 输出 的 是 最 近 ce 个 被 更 新 的 状态 进行 池 化 后 的 





结果 。 





需要 注意 的 是 , 与 STRAW 相 类 似 , FuN 也 是 一 个 



















































































JF HRL 的 神经 网 络 结构 。 文 献 (Vezhnevets 





et al., 2017) 选择 了 A3C 作为 强化 学 习 算 法 ， 并 设计 了 一 系列 的 实验 来 显示 FuN 相对 于 LSTM 的 


有 效 性 。 首 先 ， 它 
是 一 个 雅 达 利 游戏 ， 它 在 强化 学 习 领域 是 个 难 












































献 (Vezhnevets et al., 2017) 使 用 














展示 了 对 FuN 应 用 在 Montezuma’s Revenge 游戏 的 分 析 。Montezuma’s Revenge 





题 。 它 需要 通过 许多 技巧 来 控制 角色 躲 开 致命 的 陷 






























































2016) 3X il 





10.3.23 ”离线 策略 修正 


HRL Jj 























FuN 使 用 神经 网 络 结构 来 学 习 
和 选项 的 终止 条 件 。HRL 还 存在 许多 问题 , 例如 通用 性 、 








结合 起 来 能 产生 更 有 价 


E FuN. ‘ill 

















EBH FuN 学 习 了 更 加 























法 提出 训练 多 名 来 对 时 间 和 行为 进 


























H, FEMER PT. KEARE, FN 在 采样 效率 上 有 着 显著 的 提高 。 此 外 ， 它 
在 另外 10 款 雅 达 利 游戏 中 也 有 效果 提升 ， 其 中 FuN 的 分 数 明 显 高 于 选项 -批判 者 结构 。 同 样 ， 文 
了 4 个 不 同等 级 的 DeepMind 实验 室 3D 游戏 平台 (Beattie et al., 
有 意义 的 子 策略 ， 之 后 将 这 些 子 策略 在 内 存 中 高 效 地 









































行 抽 象 。 在 前 几 节 中 ,我 们 讨论 了 STRAW 和 
个 分 层 策略 ， 而 选项 -批判 者 结构 则 端 到 端 地 同时 学 习 内 部 策略 



























































可 迁移 性 和 采样 效率 等 。 在 本 节 中 , 我 们 
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将 介绍 离线 策略 修正 分 层 强 化 学 习 (Hierarchical Reinforcement Learning with Off-policy Correction, 
HIRO) (Nachum et al., 2018)。 它 为 训练 HRL 智能 体 提供 了 一 种 普遍 适用 且 数 据 效率 很 高 的 方法 。 

一 般 来 说 ，HIRO 考虑 了 高 层 控制 器 通过 自动 提出 一 些 目标 来 监督 低层 控制 器 的 方案 。 更 准 
确 地 说 ， 在 每 个 时 间 步 t+ 中 ，HIRO 通过 一 个 目标 gi 来 驱动 智能 体 。 给 定 一 个 用 户 指 定 的 参数 c, 
若 上 是 c 的 倍数 ， 则 目标 g 由 高 层 策略 u^ 产生 ， 和 否则 g 由 目标 转移 函数 h: gs = h(St-1, gii. 
5,) 通过 之 前 的 目标 g1 提供 。 和 FuN 类 似 ， 目 标 是 指 包 含 所 需 位 置 和 方向 信息 在 内 的 高 层 决 
策 。 实 验 发 现 ， 与 在 嵌入 空间 中 表示 目标 不 同 ，HIRO 直接 使 用 原始 观测 数据 更 为 有 效 。 需 要 注 
意 的 是 ， 我 们 可 以 根据 特定 任务 的 领域 知识 设计 内 在 奖励 和 目标 转移 函数 。 有 具体 来 说 ， 在 最 简单 
的 情况 下 ， 内 在 奖励 被 定义 如 下 : 










































































































































































































































































Ri = —||Si + g — Sella, (10.20) 
目标 转移 函数 被 定义 为 


A(S¢—1, 9-1, St) = Sia + già — Si (10.21) 








来 维持 目标 方向 。 

为 了 提高 数据 效率 ，HIRO 将 离线 策略 技术 扩展 到 高 层 和 低层 训练 。HIRO 让 低层 策略 以 
FEMA (St, ge, At, RE, Sci ASe go Sia). JE gt 视 为 模型 的 额外 输入 ， 以 支持 任意 离线 算 
法 训练 这 些 策略 。 对 于 高 层 策略 ， 转 移 元 组 (Siit46, Gitte, Atit+e, Ritte, Ste) Cv’ 在 Python 中 
表示 切片 操作 。 这 里 的 切片 不 包括 最 后 的 元 素 ) 也 可 以 通过 任意 的 离线 策略 算法 进行 训练 ， 这 
里 只 需 将 g 视 为 一 个 动作 并 累加 Reese 作为 奖励 。 然 而 过 去 的 低层 控制 器 观测 的 转移 数据 并 
不 能 反映 动作 。 为 了 解决 这 个 问题 ，HIRO 提出 使 用 重 标记 〈Re-lapel) 技术 来 纠正 高 层 转移 数 
据 。 旧 的 转移 数据 (Se ge 35 Rocco Si) 将 被 重新 标记 一 个 不 同 的 目标 o, 使 得 o. 能 最 大 化 
B! (Attol Settes dite) 概率 ， 其 中 Qe do 通过 目标 转移 函数 hh 计算 。 对 于 随机 行为 策略 ， 其 对 
数 概率 log p (Art+elStt+e ic) 可 以 通 如 下 方式 计算 : 




































































































































































t 十 c 一 工 
1 . 
log u (Accce|Staes Gt:tte) x 2 XO Ae = p (Si, ill + const. (10.22) 
Esi 

















在 实践 中 , HIRO 从 一 个 包括 原始 目标 的 目标 候选 集中 选择 能 最 大 化 对 数 概率 的 目标 。 该 目标 
应 Sipe Si 的 差 , 并 来 自 一 个 对 角 高 斯 分 布 的 采样 。 分 布 中 每 个 平均 项 随机 对 应 向 量 Sepe — S, 
的 元 素 ， 其 中 减 号 表示 一 个 元 素 运算 符 。 

HIRO 的 结构 如 图 10.5 所 示 。Nachum 等 人 (Nachum et al., 2018) 在 文献 (Duan et al., 2016) 中 
通过 4 个 挑战 性 的 任务 验证 了 HIRO。 实 验 表 明 ， 离 线 策略 修正 具有 显著 的 优势 ， 并 且 对 低层 控 
制 器 的 重 标记 可 以 对 初始 训练 进行 加 速 。 
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| p: 使 用 目标 重 标记 进行 离线 策略 训练 | 
go h, gı h, eae h, gc—1 Ic 


| | | | 


| 使用 目标 驱动 的 奖 大 进行 离线 策 咯 训练 | 

















5 a 
^ s | 
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图 105 HIRO 的 结构 ， 改 编 自 文献 (Nachum et al, 2018)。 低 层 策略 接收 高 层 目标 ， 并 直接 与 环境 
交互 。 其 中 目标 是 由 高 层 策略 或 者 目标 转移 函数 产生 的 


10.4 其 他 工作 


在 本 节 中 ， 我 们 对 近年 来 HRL 方面 的 工作 进行 了 简要 的 总 结 。 图 10.6 显示 了 两 个 视角 。 先 
从 低层 策略 奖励 信号 这 个 视角 看 ， 通 和 常 有 两 种 观点 ， 第 一 种 观点 是 提出 直接 用 端 到 端的 通过 环 
并 学 习 低 层 策略 ， 例 如 前 文 介 绍 的 STRAW (Vezhnevets et al., 2016) 和 选项 -批判 者 结构 (Bacon 
et al., 2017)。 第 二 种 观点 认为 通过 辅助 奖励 进行 学 习 可 以 获得 更 好 的 分 层 效 果 ， 例 如 前 文 提 到 过 
的 FuN (Vezhnevets et al., 2017) 和 HIRO (Nachum et al., 2018). 





























































































































状态 抽象 
高 阶 抽象 目标 | 时 域 抽象 
状态 空间 分 解 
从 环境 中 学 习 


低 阶 策略 奖励 信号 
借助 辅助 奖励 


10.6 HRL 算法 的 两 个 视角 
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般 来 说 ， 第 一 种 观点 可 以 从 端 到 端 学 习 中 获得 更 为 有 效 的 效果 。 这 个 分 支 下 的 主要 工作 聚 
焦 在 选项 上 。 对 于 选项 的 发 现 方法 ，STRAW (Vezhnevets et al., 2016) 和 选项 -评判 者 结构 (Bacon 
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et al., 2017) 都 可 以 被 视 为 自 上 而 下 的 方法 ， 这 种 方法 先 通过 探索 获得 一 些 奖励 信号 ， 随 后 对 动作 


进行 拆 解 , 从 而 组 成 选项 。 与 之 
该 方法 使 用 了 在 一 个 Laplacian 图 框 






































HERZ. (Proto-Value Func 












































CHK (Machado et al., 2017) 介绍 了 一 种 自 下 而 上 的 方法 ， 


tions, PVFs) 来 对 环境 进 





行 表示 学 习 ， 为 任务 无 关 的 选项 提供 了 理论 基础 。 文 献 (Riemer et al., 2018) 扩展 了 选项 -批判 者 结 
构 ， 并 得 出 了 一 个 深度 分 层 选项 的 策略 梯度 定理 。 实 验 结果 表明 , 分 层 选 项 -批判 者 在 离散 和 连续 
的 环境 中 都 十 分 有 效 。 文 献 (Harutyunyan et al., 2018) 仿照 离线 策略 学 习 中 的 做 法 ， 将 终止 条 件 解 









































耦 为 行为 终止 和 目标 终止 。 该 方法 在 文 ! 



























































的 实验 里 表现 出 了 更 快 的 收敛 速度 。 文 献 (Sharma et al., 


2017) 受到 SMDP 视角 下 的 选项 的 启发 ， 提 出 了 细 粒 度 动 作 重复 (Fine Grained Action Repetition, 
FiGAR)。 它 能 通过 学 习 来 预测 选择 出 的 动作 要 被 重复 执行 的 时 间 步 数 。 
此 外 ， 另 外 一 种 直观 的 方法 是 将 元 学 习 与 这 种 端 到 端的 方法 结合 起 来 形成 一 个 层次 结构 。 文 























的 基础 策略 ， 并 在 3D 








性 ， 如 何 将 该 方法 扩展 到 


et al., 2018). 





























献 (Frans et al., 2017) 开发 了 一 个 能 提升 未 知人 
































E 务 采样 效率 的 元 学 习 算法 ,该 算法 共享 了 分 层 结构 























[器 人 上 取得 了 显赫 的 成 果 。 然 而 ， 由 了 












































第 二 种 观点 是 使 用 辅 








为 低层 策略 建立 了 目标 导向 的 内 在 奖励 。 有 六 















































F 对 最 终 任 务 具 有 唯一 依赖 
复杂 领域 仍然 是 一 个 问题 (Bacon et al., 2017; Frans et al., 2017; Nachum 














励 。FuN (Vezhnevets et al., 2017) 和 HIRO (Nachum et al., 2018) 都 
F 多 其 他 的 工作 聚焦 于 能 在 一 系列 领域 上 有 效 的 目标 


SHAS. i8 Hb fir Bow As (Universal Value Function Approximators, UVFAs) (Schaul et al., 


2015) 在 目标 上 泛 化 价值 函数 。 文 献 (Levy et al., 2018) it 




















步 引 入 了 后 见 之 明 目 标 转移 ， 扩 展 了 





后 见 之 明 经 验 回放 (Hindsight Experience Replay, HER) (Andrychowicz et al., 2017) 的 思想 ， 并 取 















































层 动作 价值 函数 。 其 
定 的 子 目标 。 

















另外 也 可 以 利用 领域 知识 来 构建 好 



































任务 的 结构 ， 它 会 先 在 相关 简 
的 世界 》 游 戏 领域 的 终生 学 习 















































et al., 2017) 51A T B& Lt 





经 网 络 结构 ， 它 通过 预 训练 的 技能 来 学 习 高 层 策略 ， 需 要 最 少 的 下 游 任 














务 领域 知识 ， 并 可 以 很 好 


















































很 难 简单 地 将 任务 扩展 到 














我 们 也 可 以 从 抽象 目标 
虑 状态 抽象 。HIRO 可 以 被 认为 
目标 转移 函数 模型 的 时 间 





























的 视角 来 理解 HRL 5235. Ye 





得 了 显著 的 稳定 性 。 文 献 Kulkarni et al., 2016) 介绍 了 h-DQN 算法 ， 它 学 习 不 同时 间 尺 度 下 的 分 
顶层 的 动作 价值 函数 学 习 选 项 策略 ， 低 层 的 动作 价值 函数 学 习 如 何 达 到 给 






































甫 助 奖励 。 文 献 (Heess et al., 2016) 介绍 了 一 个 用 于 移动 
了 预 训练 。 文 献 (Tessler et al., 2017) 提出 了 应 用 在 《我 
系统 。 它 会 有 选择 地 将 学 到 的 技能 转移 到 新 任务 上 。 文 献 (Florensa 





























能 的 可 迁移 性 。 然 而 ， 无 论 是 目标 导向 奖励 和 手工 奖励 都 
领域 ， 比 如 像素 级 观测 的 领域 。 



































| 象 又 考虑 了 时 域 抽象 。] 



































与 选项 框架 相 比 ， 文 献 





匡 架 通常 学 习 时 域 抽 象 ， 而 FuN 则 考 























其 目标 提供 了 状态 方向 和 
(Haarnoja et al., 2018) 使 























用 了 图 模型 来 实现 另 一 个 分 层 思想 。 
当前 的 任务 。 这 会 使 上 层 的 工作 更 为 简 自 





















































提供 了 一 个 利用 注意 力 机 制 对 状态 空间 
在 状态 空间 增加 了 一 个 视觉 沪 
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， 若 当前 任务 没有 完全 成 功 ， 则 每 一 层 解决 自己 
f. 在 状态 抽象 和 时 域 抽象 之 外 ， 文 献 (Mnih et al., 2014) 
进行 分 解 的 方法 。 更 准确 地 说 ， 这 项 工作 在 选择 动作 前 ， 














捉 。 此 处 的 注意 力 完成 了 在 状态 空间 上 的 高 层 规划 (Sahni 
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et al., 2017; Schulman, 2016)。 对 于 选择 抽象 对 象 ， 其 核心 是 回答 高 层 策略 如 何 指导 低层 策略 的 问 
题 。 对 于 有 足够 先 验 知识 的 领域 ， 通 过 元 学 习 进 行 技能 组 合 学 习 的 方式 可 以 取得 更 好 的 效果 。 对 
于 长 期 规划 ， 顶 层 的 时 域 抽 象 是 十 分 必要 的 。 
我 们 可 以 看 出 ，HRL 仍然 是 强化 学 习 的 一 个 高 级 课题 , 还 有 许多 问题 需要 解决 。 回 想起 HRL 
的 动机 是 通过 分 层 抽象 来 提高 采样 效率 和 通过 重用 学 到 的 技巧 来 处 理 大 时 间 跨 度 的 问题 。 实 验 结 
果 表 明 ， 分 层 架 构 带 来 了 一 些 效果 提升 ， 但 并 没有 足够 的 证 据 表 明 ， 它 是 确实 实现 了 分 层 抽象 ， 
或 者 只 是 进行 了 更 有 效 的 探索 (Nachum et al., 2018)。 未 来 ， 在 概率 规划 、 相 关 理 论 研究 ， 以 及 在 
其 他 强化 学 习 领 域 进行 分 层 等 方向 上 ， 可 能 会 带 来 新 的 突破 。 
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多 智能 体 强化 学 习 
















































































多 种 场景 下 智能 体 之 间 合 作 与 竞 妇 
型 的 交互 场景 。 通过 对 博弈 架构 中 每 一 部 分 优化 和 均衡 的 分 忆 

















化 学 习 策 略 将 得 到 指引 和 进一步 


11.1 简介 





探索 。 


的 关系 ， 以 及 一 般 性 的 博弈 


在 强化 学 习 中 ， 复 杂 的 应 用 需要 多 个 智能 体 的 介入 来 同时 
能 体 数 目的 增加 会 对 管理 其 之 间 的 交互 带 来 挑战 。 根 据 每 个 智能 体 的 优化 问题 ,均衡 的 概念 被 提 
出 并 用 于 规范 多 智能 体 的 分 布 式 动作 。 结 合 典型 的 多 智能 体 强化 学 习 算 法 ， 我 们 进一步 分 析 了 在 


Ed 


学 习 并 处 理 不 同 的 任务 。 然 而 ， 智 
























































架构 如 何 用 于 建 模 多 智能 体 多 种 类 











「， 每 一 个 智能 体 最 优 的 多 智能 体 强 

















基于 规则 和 环境 反馈 ， 一 个 


























工 智能 中 有 很 多 应 用 具有 大 规模 






































的 动作 ， 而 且 我 们 希望 有 多 个 智能 体 可 以 通过 有 限 的 通信 共同 
































在 多 个 智能 体 的 情况 下 为 每 一 个 

















智能 体制 定 






































智能 体 可 以 通过 强化 学 习 学 到 动作 策略 并 且 表 现 优异 。 然 而 ， 人 
的 环境 背景 和 复杂 的 学 习 任务 ， 这 不 仅 要 求 一 个 智能 体 做 出 明智 














做 出 明智 的 决策 。 因 此 ， 我 们 需要 














了 效 的 强化 学 习 策略 。 考 虑 到 多 个 智能 体 之 间 的 相互 








交流 和 影响 ， 多 智能 体 强 化 学 习 的 概念 被 提出 并 受到 广泛 的 关注 和 探索 。 




















为 了 方便 分 析 和 理解 ， 在 多 
































略 和 效用 函数 。 




















智能 体 强 化 学 习 中 ， 我 们 列 出 三 个 基本 元 素 ， 分 别 是 智能 体 、 策 




















。 智 能 体 : 智能 体 是 一 群 具有 自主 决策 意识 的 个 体 ， 它 们 ! 



































进行 交互 。 为 了 能 使 自己 获得 最 
r4 























体 动 作 的 观察 、 学 习 并 制定 自 
体 同时 存在 。 智 能 体 的 数目 为 1 时 即 普通 强化 学 习 的 场景 。 



































每 一 个 个 体 都 可 以 独立 地 和 环 
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大 的 收益 和 最 小 的 损失 ， 每 一 个 智能 体会 基于 对 其 他 














的 动作 策略 。 在 本 章 我 们 要 考虑 的 情况 中 ， 会 有 多 个 
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Ti 
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。 策 略 : 在 多 智能 体 强 化 学 习 中 ， 每 一 个 智能 体会 制定 策略 来 最 大 化 自身 的 收益 并 且 最 小 化 
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损失 。 其 和 
效用 函数 : 
体 都 会 有 狐 




















I 定 的 策略 基于 智能 体 对 环境 的 感知 ， 并 


考虑 到 每 个 智能 体 自身 的 需求 和 对 环境 及 其 他 智能 体 的 依赖 关系 ， 每 一 个 智 














会 被 其 他 智能 体 的 策略 影响 。 












































k EI HUA 








一 个 智能 体会 以 最 大 化 
在 多 智能 体 强 化 学 习 中 , 每 一 个 智能 体会 有 自身 的 效 ) 























能 
函数。 一 般 来 说 ， 效 用 函数 定义 为 智能 体 在 实现 各 种 目标 时 获得 的 总 
收益 和 总 成 本 之 差 。 在 多 智能 体 的 场景 下 ， 在 对 周围 环境 和 其 他 智能 体 的 学 习 过 程 中 ， 每 










































































身 的 效用 函数 为 最 终 目标 。 


























函数 ,并 以 最 大 化 其 效用 价值 为 目标 ， 



























































基于 对 环境 的 观察 和 交互 自主 : 
策略 对 其 他 智能 体 效 ) 





























况 。 考 虑 到 智能 体 之 间 相 互 交 互 的 多 种 复杂 情况 ， 博 弈 论 普遍 被 用 来 对 智能 体 的 决策 进行 
析 (Fudenberg et al., 1991)。 针 对 不 同 的 多 智能 体 强 化 学 习 的 场景 ， 可 以 采用 不 同 的 博弈 框架 来 模 











以 做 出 一 
一 个 智能 体 在 














拟 交 互 的 场景 ， 整 体 上 可 以 分 为 如 下 三 种 类 别 。 
。 静态 博弈 : 静态 博弈 是 模拟 智能 体 间 交互 的 最 基本 形式 。 在 静态 博弈 中 ,所 有 








出 决策 ， 
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MER 
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制定 策略 时 需要 考虑 并 防范 其 他 智能 体 的 欺骗 和 背叛 来 降低 自身 的 损失 。 








FARR: 
智能 体 的 总 效益 函数 是 






































避免 了 多 智能 体 之 间 恶 意 的 动作 决策 ， 从 而 整体 上 提高 了 所 有 智能 体 总 效益 价值 之 和 。 
随机 博弈 〈 或 
大 态 下 多 次 做 出 动作 决策 。 随 机 博弈 模拟 出 了 多 个 智能 体 做 多 次 决策 的 一 般 情 况 ， 
身 所 处 的 状态 ， 





每 个 知 


出 多 次 动 
该 智能 


ELE 
可 能 会 收 到 














出 乎 常规 的 欺骗 和 背叛 策略 来 使 











E 复 博弈 是 多 个 智能 体 在 相同 的 状态 下 采取 重复 多 次 的 决策 动作 。 因 此 ， 每 个 
其 在 每 次 决策 动作 所 带 来 的 效益 价值 的 总 和 。 
9 能 体 在 某 一 次 动作 时 采取 了 欺骗 或 背叛 的 决策 时 ， 在 未 来 的 动作 中 ， 
其 他 智能 体 的 惩罚 和 报复 。 因 此 ， 相 比 于 静态 博弈 ， 重 复 博 弈 大 大 地 




















Hr 





地 学 习 并 制定 策略 。 由 于 每 一 个 智能 体 在 自主 学 习 时 不 会 考虑 到 其 





























j 函 数 的 影响 ， 因 此 ， 在 多 个 智能 体 相 互 交 互 影 响 下 会 存在 竞争 或 合作 的 情 


















































HEAT 
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能 体 同 时 做 
| 于 每 个 智能 体 只 行动 一 次 ， 所 以 其 可 
获 益 。 因 此 ， 在 静态 博弈 中 ， 每 





























个 决策 动作 。 
cfe fb 


E 体 只 做 出 












































































































































1 于 所 有 智能 体会 做 






































































































































随机 博弈: 
体 在 多 个 ; 





本 会 根据 


















































提升 E 

















用 函数 的 最 人 








马尔 可 夫 博 弈 ) 可 以 看 作 是 一 个 马尔 可 夫 过 程 ， 其 中 存在 多 个 智能 


















































通过 对 环境 的 观察 和 对 其 他 智能 体 动作 的 预测 ， 做 出 














E 动 作 决 策 。 

















在 本 章 中 ， 在 单 智能 体 强 




















的 效用 函数 。 


H5 
在 多 智能 体 强化 学 习 中 所 有 智能 体 之 间 达 到 均衡 状态 ， 并 且 每 个 智能 体 都 能 获得 相对 较 高 和 稳定 





11.2 ”优化 和 均衡 





化 学 习 的 基础 上 ， 我 们 更 多 地 关注 智能 体 之 间 的 交互 和 关联 ， 寻 求 

















化 问题 的 数学 问题 ， 











智能 体 ， 





























1V =X. 
表示 所 有 智能 








需要 在 和 其 他 








由 于 每 个 智能 体 以 提高 自身 的 效 
其 中 每 个 智能 体 对 应 一 个 优化 问题 。 





























函数 为 目标 ， 多 智能 体 强 化 学 习 可 以 看 成 一 个 求解 多 个 优 
为 了 分 析 智 能 体 之 间 的 关系 , 设 有 m 个 











x XX, 


本 在 采取 决策 x, x c A 时 的 效 | 



































, x 表示 所 有 智能 体 的 决策 空间 ， 用 u = (u(x), us (p) 
空间 。 因此 ， 每 个 智能 体 i, Vi € {1,2,--- ,m}, 
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能 体 的 交互 情况 下 ， 最 大 化 其 





身 的 效用 函数 。 在 多 智能 体 强化 学 习 下 ， 一般 来 














11.2 优化 和 均衡 



































说 ， 就 是 同时 或 者 顺序 求解 多 个 优化 问题 ， 来 保证 每 个 智能 体 都 能 获得 最 优 的 效用 函数 。 

忆 为 每 个 智能 体 的 收益 函数 和 所 有 智能 体 的 决策 动作 相关 ， 在 求解 多 智能 体 的 优化 问题 中 ， 
我 们 希望 所 有 智能 体 最 终 都 能 有 稳定 的 决策 策略 ， 在 其 状态 下 ， 每 一 个 智能 体 都 不 能 通过 只 改变 
自身 的 决策 策略 而 使 自己 获得 更 高 的 收益 。 因 而 ， 在 多 智能 体 强化 学 习 中 ， 我 们 提出 了 均衡 的 概 
念 。 为 了 更 好 地 理解 和 分 析 ,， 在 不 失 一 般 性 的 前 提 下 ， 我 们 通过 胆小鬼 博弈 〈Chicken Dare Game, 
或 被 称 为 斗鸡 博弈 ) 及 其 延伸 来 介绍 多 种 均衡 概念 。 经 典 的 胆小鬼 博弈 是 一 种 静态 博弈 模型 ， 其 
中 涉及 两 个 智能 体 之 间 的 交互 关系 。 两 个 智能 体 可 以 相互 独立 地 选择 愤 情 《简称 为 “C”) 或 者 勇 
K (简称 为 “D”) 作为 自身 的 动作 决策 。 基 于 两 个 智能 体 所 有 可 能 的 动作 决策 ， 两 个 智能 体 获得 
的 效用 价值 由 图 11.1 所 示 。 当 两 个 智能 体 选 择 > 即 勇敢 时 ， 两 者 各 自 都 会 获得 最 低 的 效用 价 
值 0; 当 其 中 一 个 智能 体 选 择 “D” 即 勇敢 ， 另 一 个 智能 体 选 择 “C” 即 性 惨 时 ， 选 择 勇 敢 的 智能 
体 获 得 其 最 佳 的 效用 价值 6， 选 择 层 恨 的 知 Tes 氏 的 效用 价值 3。 当 两 个 智能 体 都 选 
择 “C” 即 导 情 时 ， 两 者 都 会 获得 相对 较 高 的 收益 5 
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图 11.1 胆小鬼 博弈 








11.2.1 ”纳什 均衡 


根据 图 11.1 所 示 的 胆小鬼 博弈 (Rapoport et al., 1966) 的 场景 ， 我 们 设 定 规则 要 求 两 个 智能 体 
同时 做 出 决策 。 因 而 ， 当 两 个 智能 体 同 时 选择 “C” 时 ， 假 设 对 方 在 保持 当前 决策 动作 ， 每 个 智 
能 体 都 想 要 选择 “D” 而 使 自己 获得 更 高 的 效用 价值 。 当 两 个 智能 体 同 时 选择 “D” 时 ， 两 者 都 只 
能 获得 最 低 的 效用 价值 0， 因 而 希望 改变 策略 “D” 而 获得 更 高 的 收益 。 然 而 ， 当 一 个 智能 体 选 
择 “C”， 而 另 一 个 智能 体 选择 “D” 时 ， 在 假设 对 方 不 会 改变 当前 决策 动作 的 前 提 下 ， 两 个 智能 
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体 都 不 能 只 单独 改变 自己 的 决策 而 提高 自己 的 效用 价值 。 因 此 ， 我 们 称 一 个 智能 体 选 择 “C”， 而 
另 一 个 智能 体 选 择 “D” 这 种 情况 在 当前 场景 下 达到 了 纳什 均衡 (Nash et al., 1950)， 其 定义 如 下 : 











定义 11.1 G(X, u) 表示 m AA BEAR T 939 S MUR, AP X = X x Mox, x Au 表示 智能 
的 策略 空间 。 当 所 有 智能 体 采 取 策 略 X, AF xet, u= (u(x), ,Um(Z)) 表示 智能 体 的 
效用 空间 。 我 们 同时 设 zi 为 智能 体 i 的 策略 ， 设 m à 为 除 智能 体 i 外 其 他 所 有 智能 体 的 策略 集 
会 。 当 Vi, r; E€ XH, 


ui( 2 m" 4.) 2 uin m. (11.1) 
策略 z* cx ARH ATA K E MS. 
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第 11 章 多 智能 体 强化 学 习 





纯 策略 纳什 均衡 


根据 定义 所 示 ， 在 多 
其 他 智能 体 的 坟 











一 定 存 在 ， 因 为 智能 体 的 弓 


价值 。 


























混合 策略 纳什 均衡 





在 纯 决 策动 作 之 外 ， 每 个 智能 体 还 
随机 选择 不 同 的 决策 动作 。 因 而 ， 





确定 性 ， 并 可 以 考虑 2 
来 说 ， 混 合 策 














相对 应 地 ， 其 采取 勇敢 的 概率 是 1 — po 
动作 有 偏见 ， 从 而 使 智能 体 2 产生 最 佳 



























































策动 作 不 改变 的 前 提 下 ,每 个 
收益 ， 我 们 称 所 有 的 智能 体 达 到 纪 
衡 ， 其 





















































体 强 化 学 习 的 静态 场景 下 ， 所 有 智能 体 同 时 采取 一 次 决策 动作 。 在 
E 体 不 能 通过 改变 当前 的 六 
E 策 略 纳什 均衡 。 寿 
中 一 个 智能 体 选择 层 展 动作 ， 男 一 个 智能 体 选择 勇敢 动作 。 











策动 作 而 获得 更 高 的 
认 的 例子 中 存在 两 个 纯 策略 纳什 均 
一 般 来 说 ， 纯 策略 纳什 均衡 不 















































策略 动作 不 能 保证 其 通过 改变 当前 的 动作 来 志 








得 更 高 的 效用 
















































































并 根据 策略 基于 不 同 的 概率 
可 以 在 其 相互 交互 的 过 程 中 带 来 随机 性 和 不 可 





E 体 的 策略 调整 改变 
存在 。 以 胆小鬼 博弈 为 例子 ， 我 们 设 
E 智 能 体 1 策略 的 
































We ZEE) A 























IRSE S Gr (Hg. A 
体 1 OSEE RO BERE p» 
手 智能 体 2 的 


























策略 动作 ， 需 要 满足 如 下 关系 : 


5p + 3(1 — p) = 6p + 0(1 — p). 








(11.2) 


我 们 得 到 p = 0.75。 从 智能 体 2 的 角度 来 说 ， 依 此 类 推 ， 即 当 两 个 智能 体 选 择 “C” 的 概率 


均 为 0.75， 并 且 选 择 "D" 的 概率 为 0.25 时 ， 两 个 智能 体 达 到 了 
体 获得 
综 上 所 述 , 我 们 将 











轴 表 示 














的 期 望 效益 价 





























11.2.2 ”关联 性 均衡 
在 胆小鬼 博弈 的 纳什 均衡 中 ， 两 个 智能 体 总 效益 之 和 为 9， 小 于 所 有 两 个 智能 体 总 效益 之 和 
的 最 大 可 能 值 10。 然 而 ， 两 个 智能 体 需 要 都 选择 策略 “C” 使 
此 ， 为 了 更 好 地 提高 所 有 智能 体 的 总 效益 价值 # 





式 的 方式 下 是 不 稳定 的 。 
能 够 拥有 稳定 的 收益 ， 关 联 性 均衡 被 进一步 提出 。 
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的 情况 。 
B 和 点 C 为 纯 策 
有 纳什 均衡 的 结果 ， 两 个 智能 体 效 月 


选择 “C” 的 情况 ， 点 B3 
示 智 能 体 1 采用 动作 “D” 智 能 体 2 RH 
寻 此 ， 两 个 智能 体 采取 所 有 
咯 纳 什 均衡 的 结 




































































胆小鬼 博弈 的 结果 用 
:于 图 11.1 表示 的 智能 体 之 间 的 关系 ， 












































智能 体 2 的 效用 


























策略 纳什 均衡 ， 其 中 每 个 智能 














表示 智能 体 1 的 效用 函数 , Y 















































点 4 对 应 两 个 智能 体 同 时 




















j 动 作 “C” 智 能 体 2 采 



































IZME “D” HAR, AOR 
E “C KWER, A D 对 应 两 个 智能 体 同时 选择 “D” 






























































































































































É ABDC 区 域 中 ， 其 中 点 
点 五 即 为 混合 策略 纳什 均衡 的 结果 。 对 于 所 
月 函数 之 和 相同 ， 等 于 9. 


























10， 在 绝对 分 布 
保证 每 个 智能 体 




















11.2 ”优化 和 均衡 





0 3 5 6 
图 11.2 ”胆小鬼 博弈 中 的 纳什 均衡 

















在 胆小鬼 博弈 的 例子 中 ， 我 们 设 定 两 个 智能 体 选 择 “CC” (第 一 个 “C” 对 应 智能 体 1 的 决 
策动 作 ， 第 二 个 “C” 对 应 智能 体 2 的 决策 动作 ),“CD”“DC” 和 “DD” 的 可 能 性 为 wv。 当 两 个 
智能 体 相关 联 并 且 设 定 每 种 情况 的 可 能 性 为 v = [1/3,1/3,1/3,0] 时 ， 两 个 智能 体 的 总 效用 价值 
为 9.3333， 比 纳什 均衡 的 结果 要 高 。 不 仅 如 此 ,假设 当 智 能 体 1 宣布 将 选择 “C” 时 , 为 了 满足 每 
种 情况 的 可 能 性 保持 为 w， 其 对 手 智能 体 2 需要 采取 混合 策略 ， 其 选择 “C” 和 “D” 的 可 能 性 分 
别 均 为 0.5。 那 么 当 智 能 体 1 真实 选择 “C” 的 时 候 ， 能 获得 的 效益 价值 为 0.5 x 5 十 0.5 x 3=4。 
但 如 果 智 能 体 1 私自 改变 了 决策 动作 “D”， 在 智能 体 2 策略 不 发 生 改变 的 情况 下 ， 智 能 体 1 能 够 
收 到 的 效益 价值 为 0.5x 6 十 0.5 x 0— 3, WFE "C" fist PAGS UMB 4. XTM, DATI 
能 体 1 宣布 将 选择 “D” 时 ， 为 了 满足 每 种 情况 的 可 能 性 保持 为 w， 其 对 手 智能 体 2 需要 以 100% 
的 概率 做 出 决策 动作 “C”， 那 么 智能 体 1 依然 不 能 将 宣布 的 动作 私自 改变 到 “C” 而 获得 更 高 的 
效用 价值 。 因 此 ， 其 相关 联 的 概率 分 布 v 让 两 个 智能 体 达到 了 关联 性 均衡 ， 具 体 定义 如 下 : 



























































P di 




































































































































































定义 11.2 关联 性 均衡 (Aumann, 1987) 定义 为 智能 体 之 间 能 够 相关 联 实现 概率 分 布 vu， 并 且 满 足 
如 下 关系 


> v(x}, e_1)[ui(et, wi) — ws) > 0, Vz; € Xi, (11.3) 
€ .€X 4 


其 中 Tb; 表示 智能 体 ROKR a, Xi 表示 除 智能 体 i 外 所 有 其 他 智能 体 的 策略 空间 。 





>H 


此 ,在 假设 两 个 智能 体 服从 相关 联 分 布 的 前 提 下 ， 每 个 智能 体 不 能 改变 当前 相关 联 的 策略 
而 获得 更 高 的 效用 价值 。 为 了 更 直观 地 表现 initia 我 们 在 图 11.3 中 用 点 F 标注 
出 本 例 中 关联 性 均衡 的 结果 。 一 般 来 说 ， 在 图 中 ABC 区 域 中 ， 只 要 满足 公式 013) 所 示 的 关系 ， 
其 结果 均 可 达到 关联 性 均衡 。 
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0 3 5 6 
图 113 胆小鬼 博弈 中 的 关联 性 均衡 








11.2.3 ”斯 塔 克 尔 伯 格 博弈 











除了 同时 做 出 决策 的 情况 ， 智 能 体 之 间 还 可 能 会 顺序 做 出 决策 。 在 顺序 做 出 决策 的 情况 下 ， 
智能 体会 分 别 被 定义 为 领导 者 和 追随 者 ， 其 中 领导 者 会 先 做 出 决策 ， 追 随 者 随后 做 出 决策 (Bjorn 
et al., 1985)。 因 而 ， 领 导 者 在 决策 时 会 有 先 发 优势 (First-Mover Advantage)， 可 以 通过 预测 追随 
者 对 其 诀 策 的 反应 来 决定 能 够 给 自身 带 来 最 大 收益 的 最 佳 决策 。 在 胆小鬼 博弈 的 例子 中 ， 如 果 我 
们 扩展 场景 使 两 个 智能 体 的 决策 是 顺序 决定 的 ， 并 令 智 能 体 1 为 领导 者 ， 智 能 体 2 为 追随 者 ， 那 
么 智能 体 1 会 选择 策略 动作 “D”， 因 为 智能 体 1 可 以 预测 到 ， 当 其 选择 “D” 时 ， 为 了 获得 更 高 
的 收益 ， 智 能 体 2 一 定 会 选择 动作 “C”， 从 而 使 自己 的 效用 价值 为 所 有 可 能 结果 中 的 最 大 值 6， 
并 且 在 顺序 执行 的 前 提 假 设 下 ， 两 个 智能 体能 够 达到 斯 塔 克 尔 伯 格 均衡 。 斯 塔 克 尔 伯 格 均衡 的 定 
XP: 















































































































































































































































定义 11.3 ik ((X, IT), (9, f)) 为 顺序 执行 的 场景 ， 其 中 有 m 个 领导 者 同时 先 做 出 策略 动作 ，n 
个 追随 者 同时 后 做 出 策略 动作 。X = XxX Xx, xX, Fe TW = M x Mx,- ,xlIn 2 53] 
表示 领导 者 和 追随 者 的 策略 空间 ，g = (gi(m),---,gn(m)) 为 领导 者 m CX tx nx. f = 
(有 (7),… fa(m)) 为 追随 者 x € II MRA BK. Ka; 为 领导 者 i 的 决策 策略 ，z_; 为 除 领导 者 
i 外 其 他 领导 者 的 决策 策略 集合 。 同 样 地 ， 设 rij 为 追随 者 了 的 决策 策略 ，A_j 为 除 追 随 者 j 外 其 
他 追随 者 的 决策 策略 集合 。 那 么 对 于 Vi, Vj zi E 忆 ;Ti € Mj, RBRS z* € X, we € II TUK 
到 多 领导 者 多 追随 者 的 斯 塔 克 尔 伯 格 均衡 ， 并 且 满 足 如 下 关系 : 


gili, m ) 2 gilti, Lži T“) > Gi (Li, Ti, m), (11.4) 


Filey tg) 2 fon m m5). (11.5) 
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11.3 ”竞争 与 合作 


在 上 一 节 中 ， 我 们 以 胆小鬼 博弈 为 例子 介绍 了 多 智能 体 强化 学 习 中 优化 和 均衡 的 概念 。 除 此 
之 外 ， 在 不 同 的 应 用 中 ， 多 智能 体 之 间 的 关系 会 多 种 多 样 ， 在 本 节 ， 我 们 会 更 多 分 析 在 分 布 式 的 
场景 下 ， 多 智能 体 之 间 竞 争 和 合作 的 关系 。 在 没有 特殊 说 明 的 情况 下 ， 我 们 设 所 考虑 的 场景 中 存 
在 m 个 智能 体 ,， X = Ay x Xp ,x 表示 所 有 智能 体 的 策略 空间 ,ww = (us (2), Lus (2) 
Re 示 所 有 智能 体 在 采用 策略 集合 x T ， 其 中 ze xX. 



















































































青 况 下 的 效用 集合 














11.3.1 合作 


当 多 个 智能 体 相 互 合作 的 时 候 ， 一 般 来 说 ， 所 有 效用 价值 之 和 会 期 望 高 于 不 合作 的 
青 况 下 的 效用 价值 之 和 ， 并 且 在 分 布 式 的 场景 下 ， 每 个 智能 体会 更 多 地 考虑 自身 的 效用 价值 。 基 
上， 为 了 使 智能 体能 够 加 入 合作 联盟 ， 每 个 智能 体 自身 需要 在 合作 的 情况 下 获得 比 不 在 合作 的 时 
吴 更 高 的 效用 价值 。 因 而 ， 其 对 智能 体 i, Vi © {1,2,… m) 的 优化 问题 可 以 归纳 为 
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(11.6) 


11.3.2 EMF 


























零 和 博弈 poen 1974) 在 许多 应 上 


中 被 频繁 使 用 。 





为 了 简化 问题 但 不 失 一 般 性 ， 我 们 设 








有 两 个 智能 体 ， 








体 需 





效用 价值 之 和 。 


11.4 所 示 


个 智能 体 可 以 采取 策略 “A” 或 者 “B”， 





Ny 





要 基于 对 


s 每 种 


情况 下 智能 体 收益 价值 之 和 总 是 








因而 ， 在 博弈 中 不 同情 况 下 的 效用 函 
是 为 零 。 在 一 般 性 的 零 和 博弈 中 ， 每 
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其 他 智 


E 体 的 动作 预测 最 大 化 其 自慰 
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Al Ti » 





























JUS B i, Vi € (1,2 


max min u;. 
ti wi 


. m) 优化 问题 可 以 











效用 价值 并 且 最 小 化 其 他 智能 体 的 
总 结 如 下 


“© =A 


























(11.7) 





114 零 和 博弈 
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基于 此 优化 问题 ， 在 文献 (Littman, 1994) 对 一 个 简化 的 踢 足 球 问题 进行 分 析 并 建 模 为 零 和 博 
弈 。 在 足球 游戏 中 ， 存 在 两 个 智能 体 ， 每 个 智能 体 都 努力 地 把 球 踢 进来 提高 自身 的 效用 价值 并 且 
防守 对 方 智能 体 来 最 小 化 其 对 手 的 效用 价值 。 因 此 ， 在 该 问题 中 ， 对 于 智能 体 ?， 其 优化 问题 具 
体 表 示 为 










































































max min X` Q(s, ai, ai), (11.8) 


Qi 




















其 中 m; 表示 智能 体 i 的 策略 ，ai 代表 智能 体 基 于 策略 m 实际 的 动作 。 在 足球 游戏 中 ， 智 能 体 i 
努力 提高 自己 的 价值 函数 ， 然 而 其 对 手 采 取 动 作 ai 努力 降低 该 价值 函数 。 





















































11.3.3 ”同时 决策 下 的 竞争 

除了 零 和 博弈 ， 一 般 来 说 ， 还 有 很 多 应 用 在 多 种 智能 体 同 时 做 出 决策 时 存在 竞争 的 关系 。 在 
同时 决策 下 的 竞争 ， 所 有 智能 体 需要 在 相同 的 时 间 下 同时 做 出 决策 动作 ， 因 而 其 优化 问题 可 以 总 
结 如 下 : 
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max ui(TilT i). (11.9) 






























































在 文献 (Hu et al., 1998) F, Q 学 习 被 提出 来 解决 一 般 情况 下 多 智能 体 之 间 的 竞争 问题 。 其 具 
体 算法 如 算法 11.35 所 示 ， 基 于 交互 过 程 中 经 历 的 积累 ， 每 个 智能 体 i 都 会 维护 一 个 Q 列表 ， 用 
于 指导 指定 策略 x;。 随 着 更 多 经 历 的 积累 ，Q 列表 更 新 方程 如 下 : 




































































Qi(s, aj, a .;) = (1 — o5)Qi(s, ai, a i) + ailri + "yni(s )Qi(s , a), a^. ; ym .i(s")]. (11.10) 


算法 11.35 多 智能 体 一 般 性 Q-learning 


设 定 Q 表格 : 初始 值 Qi(s, ai, a_i)= TE 1, Vi € (1 2, NA mj. 
for episode = 1 to M p 

设 定 初始 状态 s = 

for step = 1 toT m 



















































































$E i 基于 Ti(s) 选择 决策 行为 a; , 其 行为 是 根据 当前 Q 中 所 有 智能 体 混合 纳什 均 
Tt 
观测 经 验 (s, Qi, Qi fi) 并 将 其 用 于 更 新 QU 
更 新 状态 s= 8/ 
end for 
end for 




















在 多 智能 体 的 场景 下 ， 由 于 Q 列表 的 更 新 和 其 他 智能 体 r_; 的 策略 相关 ， 因 而 ， 智 能 体 ; i 
要 同时 建立 并 估计 所 有 其 他 智能 体 的 Q 列表 。 根 据 由 这 些 Q 列表 推导 出 对 其 他 智能 体 策略 m; 
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算法 11.36 多 智能 体 深 度 确定 性 策略 梯度 

















能 体 i 才 可 以 更 好 制定 




















也 在 尝试 探索 在 多 智能 体 强化 学 习 中 的 应 用 。 





策略 ti， 以 使 所 有 智能 体 的 策略 集合 (m, m-i) 最 终 达 到 混合 

















本 的 Q 学 习 ， 其 他 深度 强化 学 习 的 方法 































































































体 深 度 确 定性 策略 梯度 (Deep Deterministic Policy Gradient, DDPG) 算法 , 多 智能 体 深 
E (Multi-Agent Deep Deterministic Policy Gradient, MADDPG) (Lowe et al., 2017) 
体 同 时 做 出 决策 的 场景 下 , 为 每 一 个 智能 体 提 供 策略 。MADDPG 算法 如 算法 11.36 所 
能 体 对 应 一 个 分 布 式 的 行动 者 (Actor), AH 

是 集中 控制 的 ， 并 整体 维护 一 个 和 所 有 智能 体 动作 集合 相关 的 Q 列表 。 











决策 提供 建议 。 另 一 方面 , 批判 者 (Critic) 




















for episode = 1 to M do 
设 定 初始 状态 s = So 
for step = 1 to T do 





fA T BES i 基于 当前 决策 策略 ro, 选择 决策 
同时 执行 所 有 智能 体 的 决策 行 
将 (s,a,r, 5") FEBS 























更 新 状态 s = s 


for 智能 体 i= 1 to m do 








Jj a = (a1, a2, ,am ) 


















































end for 
end for 
end for 


从 回访 缓冲 区 A4 中 采样 批量 历史 经 验 数据 
对 于 行动 者 和 批判 者 网 络 ， 计 算 网 络 参数 梯度 并 根据 梯度 更 新 参数 

















特别 来 说 ， 对 于 每 个 行动 者 i， 其 期 














Vor J (mi) = ElVor mi(0i|07 )Va; QF (01, °° 


























Hl 


JEE a; = zti(0i)。 




















回报 的 梯度 表示 为 





其 中 ， 设 01,… ,om 分 别 为 m 个 智能 体 的 观察 






































,am|0®))], (11.11) 

















PAS. m, 为 智能 体 i 的 确定 性 策略 ， 因 而 其 决策 





相对 应 地 ， 批 判 者 对 于 智能 体 ; 的 损失 函数 是 Q 值 的 TD-error， 表 示 为 


























Li = “(QF (on - Om; 01,77 , am|) m -QT (0: 
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11.3.4 顺序 决策 下 的 竞争 
在 某 些 
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2a. eg ))7], (112) 





9% 48 Q 预测 的 延迟 参数 ，r' 表示 在 延迟 参数 07 下 的 目标 








用 中 ， 不 同类 型 的 知 
中 ， 多 个 智能 体 之 间 可 能 会 顺序 做 









































k SR EMK 


RRM SAN az. lin, fest 
决策 的 智能 体会 有 先 发 优 势 。 设 
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(X, IT), (9, f)) 为 一 般 情况 下 m. 个 领导 者 和 n 个 追随 者 的 顺序 决策 场景 。 其 中 旋 = X x 
XX, xA 和 IM = I, x x, ,XI 分 别 表示 领导 者 和 追随 者 的 决策 策略 空间 。 设 
g = (G(T), ,gm(z)) 为 领导 者 x € X 的 效用 函数 ，f 二 (有 (7),… ,fn(7)) 为 追随 者 re II 
的 效用 函数 。 那 么 追随 者 j, Vj € {1,2,… ,n} 的 优化 问题 可 以 表示 为 


























max f;(a;|7_;, a). (11.13) 





领导 者 iVi e (1,2, m) 的 优化 问题 为 


max g;(z;|a —.;, T), 


st. 7; = arg max fj(nj|n .;,2), Vj € {1,2,--- ,n}. (11.14) 


11.4 ”博弈 分 析 架 构 


基于 对 多 智能 体 之 间 关 系 的 分 析 ， 我 们 总 结 出 一 个 满足 一 般 性 多 智能 体 博 弈 分 析 架 构 ， 如 
图 11.5 所 示 。 在 此 架构 中 ， 我 们 设 定 一 个 循环 沈 代 的 场景 ， 其 中 所 有 的 智能 体能 够 在 不 同时 间 
段 中 多 次 做 出 决策 。 在 同一 个 时 间 段 中 ， 我 们 将 所 有 智能 体 进一步 分 为 多 个 层级 ， 在 最 高 层级 的 
智能 体 先 做 出 动作 ， 基 于 对 高 层级 智能 体 动作 的 观察 ， 低 层级 的 智能 体 相 对 应 地 做 出 利于 自身 的 
决策 ， 并 且 在 每 一 个 层级 中 ， 可 以 存在 多 个 智能 体 同 时 做 出 决策 。 因 而 ， 在 不 同 层级 之 间 ， 所 有 
智能 体 期 望 达到 斯 塔 元 尔 伯 格 均衡 ， 如 果 多 个 智能 体 存 在 相同 层级 中 ， 根 据 这 些 智 能 体 可 和 否 相关 
联 ， 期 望 能 够 达到 纳什 均衡 或 者 关联 性 均衡 的 结果 而 使 所 有 智能 体 获得 稳定 效用 价值 。 














































































































































































































2 [00-0], (00-6), 





图 11.5 一般 性 多 智能 体 博弈 分 析 架 构 



































博弈 分 析 架 构 一 般 可 以 用 来 建 模 并 处 理 所 有 多 智能 体 强化 学 习 的 问题 。 为 了 更 好 地 测试 并 且 
评估 , 各 种 多 智能 体 强 化 学 习 平 台 目 前 已 经 建立 并 广 受 关注 。 比 如 AlphaStar 可 以 很 好 模拟 《星际 
争霸 》 游 戏 中 多 智能 体 之 间 的 关系 和 动作 。 多 智能 体 互联 自动 驾驶 (MACAD) 平台 (Palanisamy, 
2019) 很 好 地 学 习 并 且 模 拟 在 公路 上 驾驶 汽车 的 环境 场景 。 谷 歌 研究 足球 (Kurach et al., 2019) 则 是 
一 个 模拟 多 个 有 自主 意识 的 智能 体 一 起 踢 足 球 的 平台 等 等 。 基 于 适用 于 多 种 不 同 场景 的 多 智能 体 
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并 行 计算 



































高 学 习 效 果 。 在 本 章 中 ， 我 
场景 ， 我 们 分 别 分 析 同 步 通 








基于 强化 学 习 低 采样 效率 的 问题 ， 并 行 计 算 作 为 解 六 
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门将 上 基体 介绍 强化 学 习 ! 







































































算 方 式 。 通 过 并 行 计算 ， 经 

















言 和 异步 通信 ， 并 详细 阅 


述 并 行 











们 将 总 结 一 般 性 的 分 布 式 计算 架构 的 基本 构成 和 组 成 元 素 。 


12.1 简介 











方案 可 以 高 效 地 加 速 模型 训练 过 程 并 提 
采用 并 行 计算 的 系统 架构 。 对 应 不 同 的 应 用 
计算 在 多 种 网 络 拓扑 结构 中 的 不 同 运 
的 分 布 式 强化 学 习 算法 和 架构 将 被 逐一 介绍 并 互相 比较 。 最 终 ， 我 

















在 深度 强化 学 习 ! 








例 ， 为 了 使 智能 体能 够 通过 学 习 在 Dota 游戏 中 做 出 明智 的 决策 ， 每 两 秒 钟 就 大 概 有 2 百 万 组 
不 仅 如 此 ， 从 优化 的 角度 ， 特 别 在 基于 策略 梯度 的 方法 中 ， 大 批量 的 训练 数 

















据 被 用 来 训练 模型 。 




















据 能 够 有 效 地 降低 结果 的 方差 。 然 而 ， 由 于 在 强化 学 习 中 ， 智 能 体 和 环境 的 交互 限制 














顺序 执行 ， 强 化 学 习 的 算法 














缓慢 的 收敛 速度 。 并 行 计算 ， 即 对 相互 分 离 独立 的 名 
带 来 有 效 的 解决 方案 。 一 般 来 说 ， 并 行 
。 计算 的 并 行 性 : 数据 计算 是 包括 特征 工程 、 



































在 采集 数据 上 往往 存在 低 效 率 的 








计算 中 
























































程 ， 是 由 每 一 个 计算 单元 具体 操作 执行 的 ， 不 同 的 操作 站 

活 地 结合 并 扩展 到 不 同 的 规模 。 在 同等 级 规模 的 任务 中 ， 计 算 的 忆 
类 策略 : 一 类 是 合并 多 个 计算 单元 共 

时 并 行 计算 多 个 任务 。 基 于 第 一 类 计算 策略 ， 


完成 任务 的 效率 会 先 上 升 ， 然 后 会 因为 一 些 瓶 颈 的 环节 而 逐渐 收敛 。 
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， 针 对 模型 的 训练 需要 大 量 数据 。 以 OpenAl Five (OpenAI et al., 2019) 为 
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在 时 间 





问题 ， 从 而 带 来 不 理想 的 训练 结果 和 


E 务 以 同时 计算 的 方式 ， 为 解决 强化 学 习 问 题 





的 并 行 性 可 以 体 
模型 学 习 ， 以 及 结果 评估 等 任务 在 内 的 核心 过 
任务 的 大 小 和 种 类 灵 
IK] 

















现在 以 下 











两 个 方面 : 
























































元 可 以 根 提 
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EGE AME, FRE IE) 
































岗 取决 于 以 下 两 
多 个 计算 单元 同 



























































随 着 越 来 越 多 的 计算 








F-JUHH 











个 计算 任务 ， 
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而 在 深度 强化 学 习 
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中 ， 在 有 计算 资源 充足 的 前 提 下 ， 将 一 个 计算 任务 拆 分 成 多 个 相互 独立 的 子 任务 ， 并 且 将 
每 个 子 任务 分 配 适当 的 计算 资源 进行 并 行 计算 ， 是 寻求 计算 效率 提升 的 重要 方向 。 
。 数 据 传输 的 并 行 性 : 在 拥有 充足 的 计算 资源 时 ， 计 算 资 源 之 间 的 数据 传输 会 成 为 解决 问题 
效率 的 瓶颈 。 一 般 来 说 ， 为 了 避免 传输 的 过 多 元 余 ， 平 衡 网 络 中 传输 的 数据 量 并 且 降 低 传 
输 延 时 ， 基 于 不 同 的 应 用 提出 了 不 同 的 数据 传输 网 络 拓扑 模型 。 在 并 行 计算 中 ， 由 于 多 个 
进程 或 线程 可 能 同时 需要 完成 不 同 的 任务 。 管 理 数据 的 传输 并 且 在 有 限 传输 带宽 的 网 络 中 ， 

保证 传输 效率 是 极 具 挑战 的 。 

在 监督 学 习 的 设 定 中 ， 一 种 简单 的 提升 学 习 速度 的 方法 是 同时 训练 多 种 不 同 的 训练 数据 。 然 
而 ， 在 深度 强化 学 习 中 ， 智 能 体 和 环境 需要 在 时 间 上 顺序 多 次 交互 来 逐步 获得 有 效 信息 ， 因 而 不 
可 能 把 所 有 数据 集合 在 一 起 让 模型 同时 学 习 。 在 深度 强化 学 习 中 提高 并 行 计算 的 能 力 可 以 通过 让 
智能 体 在 训练 中 同时 并 行 学 习 多 个 训练 轨迹 ， 或 者 可 以 积累 批量 的 数据 来 训练 深度 强化 学 习 模 型 
中 的 参数 。 在 本 章 中 ， 我 们 即 从 计算 的 并 行 性 和 数据 传输 的 并 行 性 的 角度 分 析 深 度 强化 学 习 中 可 
以 采取 并 行 计算 的 方面 ， 并 且 在 解决 大 规模 深度 强化 学 习 问 题 的 同时 ， 我 们 将 介绍 当前 重要 的 分 
布 式 计算 的 算法 和 架构 。 
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在 并 行 计算 中 ,最 普及 的 数据 计算 和 传输 方法 采用 类 似 星 形 的 拓扑 结构 ， 是 由 一 个 主 节点 和 
多 个 奴隶 节点 组 成 的 。 主 节点 整体 上 管理 数据 信息 ， 完 成 从 奴隶 节点 的 数据 分 发 和 收集 。 基 于 从 
奴隶 节点 收集 到 的 数据 ， 总 体 的 网 络 参数 将 得 到 学 习 并 更 新 。 每 一 个 奴隶 节点 ， 相 应 地 ， 会 从 主 
节点 收 到 分 配 的 数据 ， 进 行 具体 的 数据 计算 ， 并 将 计算 的 结果 提交 给 主 节点 。 由 于 在 主 节点 的 管 
里 下 ， 同 时 可 以 有 多 个 奴隶 节点 进行 数据 计算 。 这 样 的 并 行 计算 可 以 合作 高 效 地 完成 大 规模 模型 
参数 训练 问题 。 

星 形 结构 在 解决 深度 强化 学 习 的 问题 中 得 到 了 广泛 的 应 用 ， 例 如 ， 在 Actor-Critic 方法 的 并 
行 计算 版 本 ， 通 常会 采用 一 个 主 节点 ， 以 及 多 个 奴隶 节点 。 每 个 奴隶 节点 会 维护 一 个 深度 策略 网 
络 ， 该 策略 网 络 的 结构 和 其 他 奴隶 节点 和 主 节点 一 样 。 因 此 ， 奴 隶 节 点 在 初始 化 的 时 候 会 从 主 节 
点 ， 同 步 策略 网 络 的 参数 ， 然 后 其 将 独立 与 环境 交互 学 习 。 在 与 环境 交互 之 后 ， 奴 隶 节 点 将 再 次 
和 主 节 点 通信 ， 将 学 习 到 的 信息 提交 给 主 节点 ， 其 中 学 习 到 的 信息 基于 不 同 的 架构 可 以 是 单 步 探 
索 所 得 到 的 经 验 、 连 续 探索 的 轨迹 的 经 验 、 存 储 的 带 有 权重 的 探索 经 验 、 网 络 参数 的 梯度 信息 ， 
等 等 。 在 收集 到 每 个 奴隶 节点 探索 并 学 习 的 经 验 和 反馈 之 后 ， 主 节点 将 更 新 其 网 络 的 参数 ， 并 同 
步 给 所 有 奴隶 节点 ， 用 于 奴隶 节点 下 一 轮 的 探索 。 
星 形 拓扑 结构 清晰 地 将 任务 细 分 ， 通 过 多 个 奴隶 节点 的 并 行 计 算 加 速 了 智能 体 对 策略 的 学 
习 。 然 而 基于 不 同 的 计算 能 力 ， 不 同 奴隶 节点 完成 探索 并 收集 经 验 的 时 间 可 能 不 会 完全 相同 ， 基 
而 制定 数据 传输 的 模式 会 因 所 解决 的 问题 和 系统 架构 的 不 同 而 有 所 变化 。 一 般 来 说 ， 其 分 为 同步 
通信 和 异步 通信 两 种 模式 。 
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同步 通信 模式 如 图 12.1 所 示 ， 其 中 红色 的 区 间 代 表 数 据 通 信 所 使 用 的 时 间 ， 蓝 色 的 区 间 表 示 
与 环境 交互 和 数据 计算 所 使 用 的 的 时 间 。 值 得 注意 的 是 ， 在 同步 通信 模式 中 ， 所 有 奴隶 节点 将 使 
用 完全 相同 的 时 间 区 间 进 行 信息 交互 。 主 节点 将 用 相同 固定 的 时 间 段 同时 与 所 有 奴隶 节点 进行 通 
信 。 然 而 ,， 有 更 强 算 力 的 奴隶 节点 不 得 不 等 待 其 他 所 有 弱 算 力 的 节点 完成 本 轮 计算 任务 之 后 才能 
继续 和 主 节点 通信 ， 因 而 同步 通信 模式 虽然 对 主 节 点 来 说 在 收集 分 析 奴 隶 节 点 计算 结果 的 时 间 分 
配 上 更 为 清晰 固定 ， 但 是 在 奴隶 节点 中 会 有 大 量 计 算 资 源 因 为 等 待 同步 而 造成 浪费 。 







































































































































































图 12.1 同步 通信 AE) 











为 了 减少 奴隶 节点 的 等 待 时 间 ， 提 升 计算 资源 的 使 用 效率 ， 异 步 通信 模式 相应 被 提出 。 如 
图 12.2 所 示 ， 只 要 奴隶 节点 完成 了 本 轮 的 计算 或 探索 任务 ， 可 以 立刻 将 信息 提交 给 主 节 点 。 只 有 
奴隶 节点 提交 信息 ， 主 节点 才 会 用 收集 到 的 信息 更 新 网 络 参数 并 与 该 奴隶 节点 进行 同步 ， 使 其 奴 
节点 能 够 继续 开始 下 一 轮 的 计算 或 探索 任务 。 基 于 此 种 方式 ， 主 节点 和 众多 奴隶 节点 的 数据 通 
将 会 在 多 段 不 同 的 时 间 区 间 内 完成 ， 主 节点 需要 不 定时 地 与 不 同 的 奴隶 节点 进行 通信 ， 确保 奴 
节点 中 的 计算 资源 得 到 了 充分 的 利 
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图 12.2 ”异步 通信 AX 
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1233 并行 计算 网 络 





12.3 ”并 行 计 算 网 络 


星 形 拓扑 结构 采用 了 集中 控制 式 并 行 计算 的 方式 ， 其 中 存在 一 个 主 节点 管理 并 维护 整个 系 
统 ， 使 其 确保 所 有 分 布 式 计算 的 任务 能 够 进行 得 井井有条 。 然 而 ， 从 另 一 个 方面 来 说 ， 主 节点 同 
样 也 是 整个 系统 最 薄弱 的 部 分 ， 为 了 确保 计算 的 高 性 能 ， 主 节点 需要 在 处 理 数据 上 比 奴隶 节点 更 
有 具 效 率 。 另 外 , 由 于 所 有 奴隶 节点 可 能 需要 将 信息 同时 传输 给 主 节 点 ， 为 了 避免 过 大 的 传输 延 时 ， 
主 节点 的 数据 传输 带宽 需要 足够 大 。 不 仅 如 此 ， 系 统 的 稳定 性 将 大 大 取决 于 主 节点 ， 如 果 主 节点 
有 任何 的 停机 事件 ， 整 个 系统 将 停止 工作 ， 即 使 所 有 的 奴隶 节点 存在 大 量 可 用 的 计算 资源 。 
综 上 所 述 ， 对 于 很 多 对 稳定 性 和 大 规模 并 行 计算 有 需求 的 应 用 来 说 ， 拥 有 一 个 分 布 式 数据 计 
算 和 通信 的 结构 十 分 必要 。 我 们 假设 有 多 个 相互 独立 的 进程 ， 其 中 每 个 进程 会 建立 并 维护 一 个 结 
构 相 同 的 深度 学 习 网 络 ， 并 且 进 程 与 进程 之 间 会 保持 频繁 的 通信 ， 以 使 网 络 参数 保持 同步 。 由 于 
每 个 进程 需要 与 所 有 其 他 进程 通信 ， 当 进程 的 数量 增加 时 ， 进 程 间 通信 的 成 本 将 指数 级 上 升 。 为 
了 降低 宛 余 的 通信 并 高 效 地 实现 信息 同步 ， 具 有 消息 传递 接口 (Message Passing Interfaces, MPI) 
的 进程 间 通 信 (Inter-Process Communication, IPC) 方式 将 被 采纳 。 一般 来 说 ，MPI 提供 基本 的 进 
程 进行 数据 发 送 ， 广 播 和 接收 的 接口 标准 ， 基 于 这 些 标准 ， 不 同 的 通信 结构 得 以 进一步 提出 并 由 
此 提高 信息 交流 效率 。 一 些 经 典 的 通信 结构 举例 如 下 。 

。 树 形 结构 通信 : 设 系统 中 有 个 进程 ， 当 其 中 一 个 进程 希望 将 其 自身 的 网 络 参 数 信 息 广播 

给 其 他 N 一 1 个 进程 时 ， 可 以 通过 如 图 12.3 所 示 的 树 形 结构 通信 。 在 树 形 通信 结构 中 ， 该 
进程 首先 会 将 信息 发 送 给 其 周围 m — 1 个 进程 ， 然 后 在 下 一 步 迭 代 中 ， 其 周围 的 m 一 1 个 
进程 均 会 将 信息 并 行 发 送 新 的 m — 1 个 不 同 的 进程 。 因 此 ， 随 着 并 行 通信 数目 的 增加 ， 该 
进程 仅 需 要 [logn N] 次 迭代 即 可 将 信息 发 送 给 所 有 其 他 N 一 1 个 进程 ,其 中 每 个 进程 只 需 
要 完成 (m — 1)[log,, N] 次 通信 。 相 比 于 星 形 结构 中 每 个 进程 都 需要 把 信息 分 别 发 送 给 所 
了 其 他 的 进程 ， 树 形 结构 通信 通过 提高 迭代 次 数 使 用 并 行 通信 的 方式 大 大 降低 了 所 有 进程 
发 送信 息 的 总 数 。 
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图 12.3” 树 形 结构 通信 
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。 蝴蝶 形 结构 通信 : 当 所 有 ON 个 进程 需要 同时 将 自身 的 信息 广播 给 所 
























































通信 结构 中 ， 每 个 进程 首先 将 信息 发 送 给 其 周围 m 一 1 个 进程 
他 进程 发 来 的 信息 用 于 下 一 次 迭代 中 信息 的 发 送 。 由 于 每 个 进程 会 
理 其 
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程 将 可 以 通过 树 形 结构 的 形式 进行 通信 ， 从 而 县 加 为 蝴蝶 形 通信 结构 。 如 图 
， 并 同时 收集 并 处 理 其 
在 每 次 迭代 中 收集 并 处 









































其 他 进程 发 来 的 信息 ， 所 以 其 分 布 式 的 信息 发 送 和 处 理 效率 得 到 











了 进一步 的 提升 。 


























来 说 ， 所 有 进程 需要 (m — 1)[log，V] 次 迭代 完成 所 有 信息 的 通信 
需要 完成 (m 一 1)[log,, N] 次 通信 。 另 外 ， 在 这 个 系统 中 无 论 其 ! 
断 ， 其 他 进程 之 间 仍 可 以 继续 完成 信息 的 同步 而 不 受到 影响 。 

































































， 并 且 每 个 进程 一 共 》 
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了 其 他 进程 时 ， 每 个 进 
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哪 一 个 进程 出 现 故障 中 























图 124 蝴蝶 形 结构 通信 




















基于 不 同 结构 的 通信 ， 深 度 强化 学 习 算 法 中 并 行 数据 计算 和 数据 传输 的 方式 是 灵活 且 多 样 





的 。 对 于 不 同 的 应 用 ， 为 了 提高 并 行 性 和 处 理 效率 ， 深 度 强化 学 习 算法 的 架构 也 会 相应 地 有 所 调 
整 ， 在 下 一 节 中 ， 我 们 将 进一步 分 析 并 总 结 深度 强化 学 习 中 一 般 性 的 分 布 式 计算 架构 。 
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12.41 异步 优势 Actor-Critic 


异步 优势 Actor-Critic (Asynchronous Advantage Actor-Critic, A3C) (Mnih et al., 2016) 是 基于 





优势 Actor-Critic (Advantage Actor-Critic, A2C) 算法 的 分 布 式 版 本 ,如 图 














12.5 所 示 ， 多 个 行动 -学 


























习 者 〈ActorLearner) 将 与 多 个 独立 且 完 全 相同 的 环境 交互 ， 并 采用 A2C 算法 学 习 并 更 新 网 络 参 


























数 ， 因 而 每 个 行动 -学 习 者 都 需要 维护 一 个 策略 网 络 和 一 个 价值 网 络 来 指 

















导 其 在 与 环境 的 交互 中 
































采取 明智 的 决策 动作 。 为 了 使 所 有 的 行动 -学 习 者 的 网 络 参数 初始 化 相同 并 保持 同步 ， 在 所 有 行 
动 -学 习 者 之 外 将 建立 参数 服务 器 ， 并 使 其 文 持 对 所 有 行动 -学 习 者 的 异步 通信 。 






































从 每 一 个 行动 -学 习 者 的 角度 ， 其 具体 的 学 习 算 法 如 算法 12.37 Bri, 





























在 每 个 学 习 周 














, JH 
过 有 异步 通信 ,每 个 行动 -学 习 者 首先 会 从 参数 服务 器 中 同步 其 网 络 参数 ， 基 于 更 新 的 策略 网 络 ， 行 
RY) 
和 db,。 在 行动 -学 习 者 























动 -学 习 者 会 做 出 决策 动作 并 与 环境 最 多 交互 如 ax 次 ， 与 环境 交互 探索 的 
练 其 自身 的 策略 网 络 和 价值 网 络 ， 分 别 得 到 两 个 网 络 参 数 的 更 新 梯度 db 
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Parameter Server (参数 服务 器 ) 


© © 
Quem n i 


m(s) V(s) m(s) V(s) n(s) V(s) 

s S "29599 S 
Actor-Learner (行动 -学 习 者 ) Actor-Learner Actor-Learner 
Environment (环境 ) Environment Environment 





图 12.5 ”A3C 架构 


算法 12.37 异步 优势 Actor-Critic (Actor-Learner) 


MEM: 总 探索 步 数 Tax， 每 个 周期 内 最 多 探索 步 数 如 ax。 
初始 化 步 数 上 = 1 
while T < Tmax do 
初始 化 网 络 参 数 梯度 : dg = 0 和 db — 0 
和 参数 服务 器 保持 同步 并 获得 网 络 参数 久 =0 $1 0, = 0, 
tstart = t 
设 定 每 个 探索 周期 初始 状态 S, 
while 达到 终结 状态 or t 一 start = tmax do 
基于 决策 策略 x(54|0') 选择 决策 行为 a 
在 环境 中 采取 决策 行为 ， 获 得 奖励 Re 和 下 一 个 状态 Sui. 
t=t+1,T=T+1。 



































end while 

证 达到 终结 状态 then 
R=0 

else 
R = V(S0.) 

end if 


fori = t — 1,t — 2,- -- , tstart do 

更 新 折扣 化 奖励 R= Ri + 7R.- 
积累 参数 梯度 0, dg = d0 + Vo log 1(5;|0’)(R — V(S; 
积累 参数 梯度 0^. dg, = d0, + A(R — V(S;|0,))?/80/, 。 











9;))- 























end for 
基于 梯度 dg 和 dg, 异步 更 新 0 和 0， 
end while 
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和 环境 交互 Tmax 次 后 ， 行 动 -学 习 者 会 将 两 个 网 络 所 有 累积 的 梯度 之 和 提交 给 参数 服务 器 ， 使 其 
能 够 分 别 异 步 更 新 网 络 服务 器 中 的 网 络 参数 0 和 Oyo 





12.4.2 GPU/CPU 混合 式 异 步 优 势 Actor-Critic 


为 了 更 好 地 利用 GPU 的 计算 资源 从 而 提高 整体 计算 效率 ，A3C 进一步 优化 提升 为 GPU/CPU 
混合 式 异 步 优 势 Actor-Critic (Hybrid GPU/CPU A3C, GA3C) (Babaeizadeh et al., 2017)， 如 图 12.6 
所 示 ， 在 学 习 模型 与 环境 的 交互 过 程 中 ，GA3C 算法 主要 由 智能 体 、 预 测 者 〈Predictor) 和 训练 
4% (Trainer) 三 部 分 组 成 ， 每 一 部 分 的 功能 具体 如 下 。 


模型 
Rm 





























批 训练 数据 





训练 者 








批 推断 数据 
预测 序列 训练 数据 
X 


模拟 器 LO 智能 体 ”模拟 器 一 SE ee ”模拟 器 一 ” 智能 体 
决策 行为 决策 行为 决策 行为 





图 12.6 GA3C 架构 
































。 智 能 体 : 在 GA3C 算法 中 ,多 个 智能 体 分 别 与 模拟 的 环境 进行 交互 ,然而 每 个 智能 体 自身 不 
需要 维护 一 个 策略 网 络 来 指导 其 做 出 决策 动作 ， 而 是 基于 当前 的 状态 S:， 将 如 何 决 策 的 请 
求 发 送 给 预测 序列 ， 预 测 者 则 会 根据 整体 策略 网 络 顺 序 为 预测 序列 中 的 请 求 提供 决策 建议 。 
当 智 能 体 采取 A, 决策 动作 ， 通 过 与 环境 的 交互 获得 奖励 Ri 并 进入 状态 Sua 时 ， 智 能 体会 
将 其 探索 经 验 的 信息 (Se, As, Re, Sci) 发 送 到 训练 队列 ， 用 于 学 习 网 络 参 数 的 训练 提升 。 
预测 者 : 当 预 测 者 从 智能 体 中 收集 决策 请 求 并 存储 在 预测 队列 中 ， 再 进行 模型 推论 时 ， 将 从 
预测 队列 中 批量 获取 决策 请 求 ， 并 将 其 输入 决策 网 络 中 ， 从 而 为 每 一 个 请 求 得 到 建议 的 决 
策动 作 。 由 于 批量 的 数据 输入 使 得 模型 在 推论 时 可 以 利用 GPU 的 并 行 计算 能 力 ， 因 而 提升 
了 学 习 模 型 的 计算 效率 。 基 于 不 同 的 请 求 数量 ， 预 测 者 和 其 预测 队列 的 数目 可 以 随 之 调整 
用 于 控制 信息 的 处 理 速度 ， 降 低 计算 延迟 ， 从 而 进一步 提升 计算 效率 。 
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。 训练 者 : 在 收 到 多 个 智能 体 的 交互 经 验 信息 后 ,训练 者 会 将 信息 存储 在 训练 队列 中 ,并 从 中 
批量 选取 数据 ， 用 于 整体 策略 网 络 和 价值 网 络 的 模型 训练 。 同 样 ， 在 模型 训练 中 ， 批 量 的 
信息 输入 利用 GPU 的 并 行 计算 能 力 提 升 了 计算 效率 ， 同 时 也 降低 了 训练 结果 的 方差 。 















































12.4.3 ”分 布 式 近 端 策略 优化 


分 布 式 近 端 策略 优化 (Distributed Proximal Policy Optimization, DPPO) 是 PPO 算法 的 分 布 
式 版 本 ， 如 图 12.7 所 示 ， 其 中 领导 者 和 工人 分 别 与 A3C 算法 中 的 参数 服务 器 和 行动 -学 习 者 的 功 
能 相对 应 。DPPO 算法 将 数据 的 采集 和 梯度 计算 分 布 在 多 个 工人 中 执行 ， 从 而 大 大 降低 了 学 习 的 
时 间 。 周 期 性 地 接收 每 一 个 工人 提交 的 平均 梯度 值 ， 领 导 者 会 更 新 其 自身 的 网 络 参数 并 将 最 新 的 
网 络 参 数 同步 更 新 给 所 有 工人 。 









































































































































图 12.7 DPPO 架构 





DPPO 算法 的 伪 代 码 从 领导 者 〈Chief) 和 工人 (Worker) 的 角度 分 别 由 算法 12.38、 算 法 12.39 
和 算法 12.40 所 述 ， 由 于 工人 可 以 基于 PPO 算法 两 种 版 本 PPO-Penalty 和 PPO-Clip 中 的 一 个 ， 因 
而 本 节 相 对 应 地 提出 两 种 DPPO 算法 , 分 别 为 DPPO-Penalty 和 DPPO-Clip。 这 两 种 算法 在 领导 者 
的 部 分 是 相同 的 ， 唯 一 的 区 别 是 工人 计算 梯度 的 方法 ， 有 具体 可 见 如 下 伪 代 码 。 
















































































算法 12.38 DPPO (Chief) 
MEH: workers 数目 W， 可 获得 梯度 的 worker 数目 门限 值 D, 次 迭代 数目 M, B. 
输入 : 初始 全 局 策略 网 络 参数 0， 初始 全 局 价值 网 络 参 数 oo 
for k = 0,1,2,--- do 
for m € {1,---,M}do 
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局 梯度 0. 





等 待 至 少 可 获得 W — D 个 worker 计算 出 来 梯度 9， 去 梯度 的 均值 并 更 新 全 
end for 
for b € {1,--- , B} do 

等 待 至 少 可 获得 W — D 个 worker 计算 出 来 梯度 %， 去 梯度 的 均值 并 更 新 全 局 梯度 o 


end for 




















end for 
领导 者 从 工人 中 收集 网 络 参 数 的 梯度 信息 并 用 于 更 新 其 自身 的 网 络 参 数 。 由 算法 12.38 所 示 ， 
在 每 一 次 迭代 中 ， 策 略 网 络 和 价值 网 络 分 别 将 执行 M 和 B 次 子 迭 代 。 在 每 一 次 子 迭 代 中 ， 领 导 
者 至 少 等 待 所 有 工人 提交 (W — D) 组 梯度 数据 , 然后 用 所 有 这 些 梯度 的 均值 来 更 新 网 络 参数 。 更 
新 的 网 络 参 数 将 会 和 所 有 工人 同步 ， 用 于 其 之 后 的 采样 和 梯度 计算 。 
从 自身 的 角度 会 收集 数据 样本 并 计算 梯度 ， 然 后 将 梯度 传递 给 领导 者 。 算 法 12.39 和 算 
法 12.40 除 在 计算 策略 梯度 的 部 分 外 大 致 相同 ， 在 每 次 迭代 中 ， 工 人 首先 会 收集 一 组 数据 Dx， 
开 根 据 收集 的 数据 计算 算法 中 的 Gi 或 4 ， 将 当前 探索 的 策略 ro 存储 为 rnua， 在 策略 网 络 和 价 
值 网 络 中 分 别 重复 M 和 B 次 子 迭 代 过 程 。 
算法 12.39 DPPO (PPO-Penalty worker) 
超 参 数 : KL 惩罚 系数 A, 自 适应 参数 a = 1.5,b = 2, MIEKA M, B. 
输入 : 初始 局 部 策略 网 络 参数 0, 初始 局 部 价值 网 络 参 数 9。 
for k = 0,1,2,--- do 
通过 在 环境 中 采用 策略 re 收集 探索 轨迹 Dj = (71) 
计算 rewards-to-go G'; 
基于 当前 价值 函数 Vo, 计算 对 advantage 的 估计 ， Ay (可 选择 使 用 任何 一 种 advantage 估计 方 
法 )。 
存储 部 分 轨迹 信息 
Told — To 
for m € (1,--- , M] do 





























































































































































































































































































































T 
Jepo(0) = 2. Dh — AKL[rzaa|vo] — € max(0, KL[roa |o] — 2KLrarget)? 
if KL[roi| 79] > 4K Ltarger then 
break 并 继续 开始 天 十 1 次 迭代 
end if 
计算 VgJppo 
发 送 梯度 数据 0 到 chief 
等 待 梯度 被 接受 或 被 舍弃 ， 更 新 网 络 参 数 。 
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end for 
forb c {1,--- ,B}do 
L(9) = -E (Ge — Vo (St)? 




















计算 VoL 

发 送 梯度 数据 o 到 chief 

等 待 梯度 被 接受 或 被 舍弃 ， 更 新 网 络 参数 。 
end for 





it d = Ê; [KL [roa(-|S¢), 0-80] 
if d < diga /a then 
A + Afb 
else if d > dtarget x a then 
ÀA«—AÀAxb 
end if 
end for 














算法 12.40 DPPO (PPO-Clip worker) 

超人 参数 : clip AT e, 次 迭代 数目 M, B. 

输入 : 初始 局 部 策略 网 络 参数 0, 初始 局 部 价值 网 络 参 数 o. 

for k = 0,1,2,--- do 
通过 在 环境 中 采用 策略 re 收集 探索 轨迹 Dj = Uri) 
计算 rewards-to-go G' 
基于 当前 价值 函数 Vo, 计算 对 advantage 的 估计 ， A, (可 选择 使 用 任何 一 种 advantage 估计 方 
法 )。 
存储 部 分 轨迹 信息 
Told < To 
for m € {1,--- , M} do 
通过 最 大 化 PPO-Clip 目标 更 新 策略 : 









































































































































Tol AlS) > , (Ai|Si) . ) 
Jppo (0) A 1-213464 
Pol - or Sin in (ZAD a Rae ee 


TED t=0 


计算 VoJppo 























发 送 梯度 数据 0 到 chief 
等 待 梯度 被 接受 或 被 舍弃 ， 更 新 网 络 参 数 。 
end for 


forb c {1,--- ,B}do 
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通过 回归 均 方 误差 拟 合 价值 方程 














"ns 2t Y (val St) - Gi) 


TED; t=0 


L(g) = 
计算 VoL 
发 送 梯度 数据 o 到 chief 
等 待 梯度 被 接受 或 被 舍弃 ， 更 新 网 络 参 数 。 
end for 
end for 




















在 DPPO-Clip 中 ,网 络 参 数 A 会 在 所 有 工人 中 共享 ， 但 是 否 更 新 取决 于 每 一 个 工人 计算 的 平 




















IT 


均 KL 散 度 。 另 外 ， 在 工人 们 共享 的 数据 中 建议 使 用 统计 值 ， 例 如 ， 对 观察 到 的 数据 ， 奖 励 和 优 





























势 函数 通过 计算 均值 和 标准 差 ， 使 其 具有 归 
































化 。 另 外 ， 在 DPPO-Clip 算法 中 ， 当 KL 散 度 超过 

















一 定数 值 后 会 添加 额外 的 处 罚 项 。 对 于 策略 网 络 ， 在 每 次 子 迭 代 过 程 中 会 采用 早 停 法 来 进一步 提 





高 算法 稳定 性 。 














12.44 ”重要 性 加 权 的 行动 者 -学 习 者 结构 和 可 扩展 高 效 深度 强化 学 习 


基于 A2C 学 习 算 法 ， 重 要 性 加 权 的 行动 者 -学 习 者 结构 (Importance Weighted Actor-Learner 








Architecture, IMPALA ) 在 分 布 式 计算 中 使 用 智 


所 示 ，IMPALA 架构 由 行动 者 和 学 习 者 组 成 ， 














能 体 探索 轨迹 的 所 有 经 验 作为 通信 信息 。 如 图 12.8 
人体 介 绍 如 下 : 






































观测 数据 
环境 QU 


决策 行为 











= ee 
——— 


工作 -学 习 者 


一 
探索 轨迹 主 学 习 者 





























。 行 动 者 : 每 个 行动 者 中 会 有 一 个 复制 的 策 








图 12.8 重要 性 加 权 的 行动 者 -学 习 者 结构 

















略 网 络 , 用 于 在 和 模拟 的 环境 交互 时 做 出 决策 , 在 




















交互 时 收集 到 的 经 验 将 会 存储 到 缓冲 区 中 ， 在 与 环境 交互 固定 次 数 后 ， 每 个 行动 者 会 将 其 
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存储 的 探索 轨迹 经 验 发 送 给 学 习 者 ， 并 和 其 他 行动 者 以 同步 通信 的 方式 从 学 习 者 中 收 到 更 
新 的 策略 网 络 参 数 信息 。 
。 学 习 者 : 通过 和 行动 者 通信 ， 学 习 者 收 到 所 有 行动 者 收集 的 轨迹 经 验 信息 并 用 其 训练 模型 ， 
设 在 状态 Sp 下 的 价值 估计 为 n 步 V 轨迹 Target， 定 义 如 下 


















































T+n-1 
Target = V(Sp) - XO yT pc), (12.1) 
fad 








RP V = pia +V (S143) - V (91) 表示 时 间 差分 。 py = min(p, 134). c; = min( 8). 
7 为 学 习 者 的 决策 策略 ， 为 上 一 轮 同步 时 所 有 行动 者 的 策略 pi 的 均值 。 

大 规模 模型 训练 算法 可 以 存在 多 个 学 习 者 ， 细 分 为 工人 学 习 者 和 主 学 习 者 ， 每 个 学 习 者 会 和 
不 同 的 行动 者 通信 并 独立 完成 模型 训练 ， 但 周期 性 地 ， 所 有 工人 学 习 者 需要 和 主 学 习 者 通信 ， 每 
个 工人 学 习 者 会 将 学 习 到 的 网 络 参 数 梯 度 发 送 给 主 学 习 者 ,然后 主 学 习 者 会 更 新 其 自身 的 网 络 参 
数 并 同步 更 新 到 所 有 的 工人 学 习 中 。 

可 扩展 高 效 深度 强化 学 习 (Scalable，Efficient Deep-RL, SEED) 架构 (Espeholt et al., 2019) 和 
IMPALA 十 分 类 似 ,主要 的 区 别 在 于 策略 网 络 的 推断 过 程 会 从 行动 者 部 分 转移 到 学 习 者 中 ， 从 而 
降低 了 行动 者 的 算 力 要 求 和 通信 延 时 。 有 具体 的 SEED 架构 如 图 12.9 所 示 ， 由 于 每 个 行动 者 中 只 需 
要 完成 和 环境 的 交互 ， 很 多 弱 算 力 的 计算 资源 可 以 加 入 架构 中 并 成 为 独立 的 行动 者 。 根 据 学 习 者 
引导 的 决策 动作 ， 每 一 个 行动 者 将 一 步 的 经 验 反 馈 给 学 习 者 ， 其 反馈 的 经 验 信息 将 首先 存储 在 学 
习 者 的 经 验 缓冲 器 中 。 在 多 次 迭代 之 后 ， 批 量 的 轨迹 经 验 数 据 将 提供 给 学 习 者 进行 模型 训练 ， 其 
中 方程 (12.1) 中 V 轨迹 目标 也 被 使 用 作为 状态 的 价值 估计 。 
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图 129 可 扩展 高 效 深 度 强化 学 习 架 构 
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12.45 Ape-X、 回 漳 - 行 动 者 和 分 布 式 深度 循环 回放 Q 网 络 


在 分 布 式 网 络 中 ， 考 虑 到 智能 体 和 环境 的 频繁 交互 ， 将 带 有 优先 级 的 经 验 回放 加 入 架构 中 对 
规模 化 场景 很 有 助 益 。Ape-X (Horgan et al., 2018) 是 典型 的 包含 带 有 优先 级 的 经 验 回放 部 分 的 分 
布 式 架 构 ， 如 图 12.10 所 示 。 设 有 多 个 相互 独立 的 行动 者 ， 在 每 个 行动 者 中 会 有 一 个 智能 体 在 策 
略 网 络 的 指导 下 与 环境 进行 交互 。 基 于 从 多 个 行动 者 中 收集 的 经 验 信息 ， 学 习 者 将 训练 其 网 络 参 
数 ， 从 而 学 习 最 优 的 动作 策略 。 不 仅 如 此 ， 除 了 行动 者 和 学 习 者 ， 算 法 中 还 有 回放 缓冲 区 收集 所 
有 行动 者 采集 的 信息 ， 维 护 并 更 新 每 一 个 存储 经 验 的 优先 级 ， 并 且 根 据 优 先 程 度 从 中 批量 选取 数 
据 发 送 给 学 习 者 进行 模型 训练 。 经 过 回放 缓冲 区 的 处 理 ， 批 量 且 标 有 优先 级 的 训练 数据 能 够 有 效 
地 提升 计算 效率 及 模型 训练 结果 。 


EZH— L3 


学 习 者 经 验 回放 









































































































































图 12.10 Ape-X 架构 





在 行动 者 中 的 算法 如 算法 12.41 所 示 ， 其 中 每 一 个 行动 者 首先 和 学 习 者 在 策略 网 络 参数 上 保 
持 同步 ， 更 新 的 网 络 参数 信息 将 指导 智能 体 和 环境 发 生 交 互 。 在 收 到 环境 带 来 的 反馈 后 ， 行 动 者 
会 计算 其 中 探索 经 验 数据 的 优先 级 ， 并 将 带 有 优先 级 信息 的 数据 发 送 给 回放 缓冲 区 。 

当 回 放 缓 冲 区 从 行动 者 中 收集 到 确定 数目 的 经 验 信 息 后 ,学习 者 将 开始 从 回放 缓冲 区 获取 批 
量 信息 进行 学 习 。 从 学 习 者 的 角度 如 算法 12.42 所 示 ， 在 每 个 模型 训练 周期 中 ， 学 习 者 首先 将 从 
回放 缓冲 区 中 获得 带 有 优先 级 的 批量 经 验 数据 ， 每 个 数据 信息 用 (id) 表示 ， 其 中 i 表示 数据 的 
索引 编号 ，d 为 具体 的 经 验 数据 信息 ， 其 中 包括 初始 状态 、 决 策动 作 、 奖 励 和 采取 动作 后 到 达 的 
状态 四 个 部 分 。 批 量 的 经 验 数 据 将 用 来 训练 学 习 者 的 网 络 参数 ， 并 周期 性 地 将 更 新 的 网 络 参 数 与 
所 有 行动 者 中 的 策略 网 络 参数 保持 同步 。 另 外 ， 在 模型 训练 之 后 ， 采 样 数据 的 优先 级 将 会 被 调整 
并 在 回放 缓冲 区 中 更 新 。 由 于 容量 大 小 的 限制 ， 在 回放 缓冲 区 中 会 周期 性 地 将 具有 较 低 优 先 级 的 
数据 删除 。 

当 训 练 模型 分 别 使 用 DQN 或 DPG 算法 的 时 候 ， 基 于 如 上 架构 ，Ape-X 深度 Q 网 络 (Ape-X 
DQN) 和 Ape-X 深度 策略 梯度 (Ape-X DPG) 相对 应 被 提出 。 在 Ape-X DQN 中 ，Q 网 络 存在 学 
习 者 和 所 有 行动 者 中 ， 在 行动 者 中 智能 体 的 决策 动作 受 网 络 产 生 的 Q@ 值 指导 ; 在 Ape-X DPG H, 
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算法 12.41 Ape-X (Actor) 


超 参 数 : 单 次 批量 发 送 到 回放 缓冲 区 的 数据 大 小 By ARE T. 
与 学 习 者 同步 并 获得 最 新 的 网 络 参 数 00 

人 So 

fort = 0,1, 2,- — ] do 

基于 决策 AR HOPES 选择 决策 行为 At 

ig E Contacts 
if 当地 缓冲 区 存储 数据 达到 数目 门限 值 B then 
批量 获得 缓冲 数据 B 
计算 获得 缓冲 数据 的 优先 级 p 
将 批量 缓冲 数据 和 其 更 新 的 优先 级 发 送 回放 缓冲 
end if 
周期 性 同步 并 更 新 最 新 的 网 络 参数 0, 


end for 
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算法 12.42 Ape-X (Learner) 


超 参 数 : 学 习 周 期 数目 了 

初始 化 网 络 参数 Oo 

for t = 1,2,3,--- , T do 

从 回放 缓冲 区 中 批量 采样 带 有 优先 级 的 数据 G, d) 
通过 批 数据 进行 模型 训练 
更 新 网 络 参 数 0 
对 于 批 数据 d 计算 优先 级 p 

更 新 回放 缓冲 区 中 索引 i 数据 的 优先 级 p 
周期 性 地 从 回放 缓冲 区 中 删除 低 优先 级 的 数据 












































































































































学 习 者 将 构建 策略 网 络 和 价值 网 络 ， 而 在 行动 者 里 只 有 相同 结构 的 策略 网 络 ， 用 于 指导 其 智能 体 
制定 策略 动作 。 

同样 设立 带 有 优先 级 的 分 布 式 回放 缓冲 区 ， 回 渊 -行动 者 CRetrace-Actor, Reactor) (Gruslys 
et al., 2017) 基于 Actor-Critic 架构 被 提出 ， 取 代 之 前 的 单个 经 验 信息 ， 一 个 序列 的 经 验 信息 将 被 
同时 输入 缓冲 区 中 ， 并 采用 Retrace(A) 算法 来 更 新 对 Q 值 的 估计 。 在 神经 网 络 中 ，LSTM 网 络 将 
在 策略 和 价值 网 络 中 使 用 ， 并 获得 很 好 的 模型 训练 结果 。 

类 似 地 , 分 布 式 深度 循环 回放 Q 网 络 (Recurrent Replay Distributed DON. R2D2) (Kapturowski 
et al., 2019) 在 带 有 优先 级 的 分 布 式 回放 缓冲 区 中 采用 具有 固定 长 度 序列 的 经 验 格式 ， 基 于 深度 Q 
网 络 (DQN) 算法 ，R2D2 同样 在 策略 网 络 中 使 用 LSTM 层 ， 并 且 用 存在 回放 缓存 区 中 的 状态 数 
据 训 练 网 络 。 
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12.4.6 Gorila 


基于 深度 Q 网 络 算法 (General Reinforcement Learning Architecture, Gorila) (Nair et al., 2015) 
如 图 12.11 所 示 。 在 此 架构 中 ， 当 和 参数 服务 器 中 深度 Q 网 络 的 参数 保持 同步 之 后 ， 行 动 者 将 在 
深度 Q 网 络 的 指导 下 和 环境 进行 交互 ， 并 将 通过 交互 收集 到 的 经 验 直接 发 送 到 回放 缓冲 区 。 回 
放 绥 冲 区 将 存储 并 管理 所 有 从 行动 者 中 收集 经 验 信息 。 当 从 回放 缓冲 区 中 获取 批量 数据 后 ， 学 习 
者 将 会 进行 模型 学 习 并 计算 Q 网 络 中 参数 的 梯度 。 在 学 习 者 中 会 用 一 个 学 习 Q 网 络 和 一 个 目标 
Q 网 络 来 计算 TD 误差 ， 其 中 学 习 Q 网 络 将 会 在 学 习 的 每 一 步 和 参数 服务 器 中 的 网 络 参数 保持 同 
步 ， 然 而 目标 Q 网 络 只 在 每 过 N 步 之 后 和 参数 服务 器 同步 。 参 数 服务 器 将 周期 性 地 从 学 习 者 中 
接收 网 络 参 数 的 梯度 信息 ， 并 更 新 自身 的 网 络 参数 ， 以 使 之 后 的 探索 更 具 效率 。 













































































参数 服务 器 梯度 信息 
| | | | 
T 相同 结构 
网 络 参 数 策略 网 络 / 训练 
i Q 网 络 
—_—__—— > 
Q eo — B 收集 经 验 回放 缓冲 区 
行动 者 行动 者 行动 者 
= 
图 12.11 Gorila 架构 














12.5 ”分布 式 计算 架构 


基于 并 行 计算 的 基本 模式 和 结构 ， 在 分 布 式 强化 学 习 中 ， 大 规模 并 行 计算 架构 能 够 得 以 进 一 
步 探索 和 研究 。 一 般 来 说 ， 其 系统 一 般 会 有 如 下 基本 组 成 元 素 ; 
。 环 境 (Environments) : 环境 是 智能 体 需 要 与 其 交互 的 场景 。 在 深度 学 习 的 大 规模 并 行 计算 
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ti 


中 ， 环 境 可 能 会 存在 多 个 复制 版 本 ， 并 分 别 对 应 到 多 个 行动 者 中 ， 使 其 能 够 相互 独立 地 并 
行 探索 ， 获 取经 验 ， 并 且 ， 在 基于 模型 的 强化 学 习 中 ， 通 常会 用 多 个 模拟 的 环境 来 使 其 在 










































































探索 和 学 习 : 








具备 并 行 性 。 

















行动 者 (Actors): 系统 中 行动 者 通常 指 直接 和 环境 进行 交互 的 部 分 。 其 中 ， 可 能 会 有 多 个 



































行动 者 和 一 个 或 多 个 真实 或 模拟 的 环境 进行 交互 ， 并 且 其 中 每 一 个 行动 者 都 能 在 所 给 出 的 
环境 状态 下 独立 地 做 出 决策 动作 。 其 决策 动作 可 以 由 行动 者 自身 的 集 略 网 络 或 者 Q 网 络 推 

























































































断 产 生 ， 或 者 是 由 参数 服务 器 或 者 其 周围 的 学 习 者 中 共享 的 策略 网 络 或 Q 网 络 产生 的 。 当 












































行动 者 在 环境 中 进行 了 连续 多 步 的 探索 之 后 ， 探 索 轨 迹 将 形成 。 形 成 的 探索 轨迹 将 会 被 提 
交 到 回放 存储 缓冲 器 或 者 直接 提交 给 学 习 者 。 由 于 行动 者 和 环境 的 交互 需要 花费 很 多 时 间 ， 
所 以 ， 行 动 者 探索 和 数据 收集 的 并 行 性 能 够 提升 获得 经 验 数 据 的 速度 ， 从 而 可 以 将 批量 数 
据 发 送 给 学 习 者 训练 模型 ， 训 练 效果 得 到 很 大 提升 。 
















































































回放 存储 缓冲 区 CReplay Memory Buffers): 回放 存储 缓冲 区 将 会 从 所 有 行动 者 中 收集 探索 






































轨迹 ， 并 将 其 整理 后 提供 给 学 习 者 | 

































































于 策略 学 习 或 者 Q 学 习 。 由 于 存储 缓冲 区 需要 快速 的 


























数据 读 写 和 数据 打 乱 重 排 , 数据 存储 的 结构 同样 需要 文 持 动态 且 并 行 的 方式 。 并 且 , 由 于 大 
多 数学 习 者 依赖 回放 存储 缓冲 区 中 的 数据 进行 模型 训练 。 为 了 保证 模型 训练 的 高 效率 ， 建 


议 在 回放 存储 缓冲 区 分 配 在 学 习 者 的 周围 并 高 效 连通 。 


































































































SA (Learners): 学 习 者 是 深度 强化 学 习 的 关键 组 成 部 分 ， 基 于 不 同 的 深度 强化 学 习 方 






























































法 , 学 习 者 的 结构 也 将 各 有 不 同 。 通常 来 说 , 每 个 学 习 者 会 维护 一 个 策略 网 络 或 Q 网 络 ,并 
且 用 从 回放 存储 缓冲 区 中 得 到 的 行动 者 与 环境 交互 的 经 验 信息 来 训练 深度 网 络 参数 。 在 训 
练 前 后 ， 学 习 者 均 会 和 参数 服务 器 进行 通信 ， 使 其 在 训练 前 同步 深度 网 络 参数 信息 ， 并 在 






















































































训练 后 提交 训练 得 到 的 参数 梯度 信息 。 多 个 学 习 者 和 参数 服务 器 的 通信 方式 可 以 是 同步 或 


异步 的 。 






































参数 服务 器 (Parameter Servers): 参数 服务 器 是 从 学 习 者 中 收集 所 有 信息 并 维护 管理 策略 
网 络 或 者 Q 网 络 中 的 参数 信息 。 参 数 服务 器 将 周期 性 地 和 所 有 学 习 者 保持 同步 ， 使 每 个 学 



























































习 者 获得 其 他 学 习 者 学 习 得 到 的 信息 ， 并 且 参 数 服务 器 能 够 在 行动 者 和 环境 交互 时 帮助 其 











Peps Aap 








制定 决策 策略 。 在 大 规模 深度 强化 学 习 系统 中 ， 为 了 保证 参数 服务 器 和 学 习 者 及 行动 者 通 
























































fe EE BEER E A 

















中 式 或 分 布 式 的 数据 通信 方式 。 
的 分 布 式 计算 架构 可 以 采纳 其 中 元 素 组 合 形成 。 由 于 其 中 的 每 一 部 分 可 独立 且 并 行进 




















和 高 效率 ， 参 数 服务 器 自身 也 可 以 具有 多 种 不 同 的 架构 ， 其 内 部 也 可 采用 集 


















































行 数 据 的 存储 ， 传 输 或 计算 ， 其 架构 可 以 根据 要 解决 的 问题 适应 性 调整 并 灵活 改变 ， 从 而 充分 满 














足 应 用 

















多 样 的 学 习 任务 需求 。 
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应 用 部 分 



































为 了 帮助 读者 更 加 深入 地 理解 深度 强化 学 习 ， 并 能 很 快 地 把 相关 技术 用 到 实践 中 ， 下 面 的 章 
节 将 会 介绍 五 个 精 选 的 应 用 ， 包 括 Learning to Run、 图 像 增强 、AlphaZero、 机 器 人 学 习 和 基于 
Arena 平台 的 多 智能 体 强化 学 习 。 这 些 应 用 履 盖 了 尽 可 能 多 的 细节 ， 帮 助 读 者 理解 不 同 场景 下 的 
实现 技巧 。 表 1 列 出 了 该 部 分 的 应 用 及 其 算法 名 称 、 策 略 、 动 作 空 间 和 观测 的 形式 。 我 们 相信 这 
些 内 容 能 帮助 读者 根据 具体 应 用 来 选择 对 应 类 似 的 项 目 。 


1 ”本 书 应 用 部 分 的 总 结 

































































































































































应 用 算法 空 观测 
Learning to Run SAC 连 给 连续 
图 像 增强 PPO 图 片 特 征 
EU ae E 
(Binary Chessboard Matrix ) 


















































AlphaZero MCTS 








机 器 人 学 习 SAC 
基于 Arena 平台 的 多 智能 体 强 化 学 习 | MADDPG, etc 
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在 这 一 章 ， 我 们 提供 了 一 个 实践 项 目 ， 方便 读者 获得 一 些 深度 强化 学 习 应 用 的 经 验 ， 而 这 个 
项 目 是 一 个 由 CrowdAI 和 NeurIPS1 2017 主办 的 挑战 : Learning to Run。 这 个 环境 有 41 维 的 状 
态 空 间 和 18 维 的 动作 空间 ， 二 者 都 是 连续 的 ， 因 此 ， 对 于 初学 者 获取 经 验 而 言 是 一 个 较 大 规模 
的 环境 。 我 们 为 这 个 任务 提供 了 一 个 柔性 ActorCritic (Soft Actor-Critic, SAC) 算法 的 解决 方案 ， 
同时 也 有 一 些 辅助 技巧 来 提高 其 表现 。 环 境 和 代码 链接 见 读者 服务 。 


































































































13.1 NeurIPS 2017 挑战 : Learning to Run 





13.1.1 环境 介绍 


Learning to Run 是 一 个 由 CrowdAI 和 NeurIPS 2017 举办 的 竞赛 ， 吸 引 了 许多 强化 学 习 硬 
究 人 员 的 参与 。 在 这 个 任务 中 ， 参 与 者 被 要 求 开 发 一 个 控制 器 ， 使 得 一 个 生理 学 人 体 模 型 可 以 尽 
可 能 快 地 通过 一 条 复杂 而 有 障碍 物 的 路 线 。 任务 中 提供 了 一 个 肌肉 骨骼 模型 和 一 个 基于 物理 过 程 
模拟 环境 。 为 了 模拟 这 个 物理 和 生物 力学 过 程 并 用 强化 学 习 智能 体 对 其 导航 ,任务 提供 了 一 个 基 
于 OpenSim 库 的 osim-rl 环境 ， 而 OpenSim 是 一 个 对 肌肉 骨骼 建 模 的 标准 物理 和 生物 力学 环境 。 
如 图 13.1 所 示 是 一 个 包括 主体 在 内 的 环境 场景 。 
这 个 环境 结合 了 一 个 包括 两 条 腿 、 一 个 骨 贫 、 一 个 代表 上 半身 的 部 分 〈 躯 干 、 头 部 、 手 臂 ) 
的 肌肉 骨骼 模型 。 不 同 部 分 之 间 由 关节 连接 (比如 膝 关节 和 髋 )， 而 这 些 关 节 处 的 活动 由 肌肉 激 
发 来 控制 。 模 型 中 的 这 些 肌 肉 有 很 复杂 的 路 径 〈 比 如 ， 肌 肉 可 以 经 过 不 止 一 个 关节 ， 并 且 模 型 中 
有 宛 余 肌肉 )， 而 肌肉 激励 器 本 身 也 是 高 度 非 线性 的 。 这 个 智能 体 在 3 维 世 界 中 进行 2 维 运 动 。 为 



























































































































































































































































































































































1 该 会 议 名 称 当时 缩写 为 NIPS 。 
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了 便于 理解 和 操作 ， 我 们 在 这 个 项 目 中 使 用 的 环境 相 比 挑战 赛 中 使 用 的 有 所 简化 ， 因 此 可 能 有 些 
地 方 跟 竞赛 官方 文档 略微 不 同 。 如 下 是 骨骼 模型 的 所 有 组 成 部 分 。 

















图 13.1 NeurlPS 2017 挑战 赛 ，Learning to Run 环境 ( 见 彩 插 ) 





。 观 察 量 包括 41 MA: 
"EE AE, x 坐标 ，y 坐标 ) 
* 骨盆 速度 〈 角 速度 ，z 速度 ，y 速度 ) 
* PE PRIA. FRR ARE A BE C6 个 值 ) 
* FARRE, RRR ARE FRE C6 个 值 ) 
* 质心 位 置 (2 ME) 
* 质心 速度 (2 ME) 
AL Aa. SR. ACL. OAR Gk 14 个 值 ) 
*# 左 右 腰 肌 强 度 : 对 难度 级 别 低 于 2《〈 难 度 值 是 一 个 默认 环境 参数 ) 的 环境 ， 其 值 为 1.0， 否 
则 它 是 一 个 随机 变量 ， 在 整个 模拟 周期 中 采样 于 均值 为 1.0、 标 准 差 为 0.1 的 固定 正 态 分 
布 。( 注 意 : 在 我 们 简化 的 环境 中 ， 这 些 腰 肌 强 度 值 被 设 为 0.0。) 
* 下 一 个 障碍 物 : 到 骨盆 的 x 轴 距 离 ， 以 及 其 中 心 相 对 地 面 的 y 坐标 。( 注 意 : 在 我 们 的 简 
化 环境 中 ， 所 有 这 些 值 被 设 为 0.0， 无 障碍 物 出 现 。) 
。 动 作 包括 18 个 标量 值 ， 分 别 表示 18 块 肌肉 的 激发 程度 〈 每 条 腿 9 个 ): 
* fis Zr LEE 
* 股 二 头 肌 
* RM 
* A REEL 
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* 股 直 肌 

* 股 肌 

* 腓 肠 肌 

* 比目鱼 肌 

* Ser BU UL 
。 奖励 函数 : 
* 奖励 函数 由 骨盆 沿 x 轴 运 动 距离 减 去 由 于 使 用 韧带 的 惩罚 计算 得 到 。 
。 其 他 细节 : 
* “done” 信 号 表示 这 一 步 是 环境 模拟 的 最 后 一 步 。 这 会 在 1000 次 迭代 到 达 或 者 骨盆 高 度 
低 于 0.65 米 时 发 生 。 
从 以 上 对 环境 的 描述 中 我 们 可 以 看 出 ， 相 比 于 其 他 OpenAI Gym 或 DeepMind Control Suite 中 的 
游戏 ， 这 个 竞赛 的 环境 相对 复杂 ， 有 着 高 维 观察 量 空间 和 动作 空间 。 因 此 ， 以 较 好 的 表现 和 较 短 
的 训练 时 间 解 决 这 个 任务 需要 一 些 特殊 的 技巧 。 我们 将 介绍 这 些 具 体 方法 及 用 一 个 并 行 训练 框架 
来 解决 这 个 任务 。 我 们 在 随 书 的 代码 库 中 提供 了 这 个 环境 的 副本 和 解决 方案 的 代码 ， 因 此 ， 我 们 
推荐 读者 用 这 个 项 目 进行 上 手 练习 。 
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13.1.2 ”安装 


根据 官方 库 ， 这 个 环境 可 以 用 以 下 命令 行 安装 : 
1. 创建 一 个 包含 OpenSim 软件 包 的 Conda 环境 (命名 为 opensim-rl)。 
































conda create -n opensim-rl -c kidzik opensim python=3.6.1 





2. 激活 我 们 刚 创 建 的 Conda 环境 。 
在 Windows 上 ， 运 行 








activate opensim-rl 





4 


在 Linux/OS X 上 ， 运 行 : 








source activate opensim-rl 














你 需要 在 每 次 打开 一 个 新 的 终端 时 输入 上 面 的 命令 
3. 安装 我 们 的 Python 强化 学 习 环 境 。 











conda install -c conda-forge lapack git 


pip install osim-rl 
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13.2 ”训练 智能 体 











自从 2017 年 以 后 ， 这 个 挑战 已 连续 举办 了 三 年 (至 2019 年 )。 因 而 ， 最 初 的 Learning to 
Run 环境 由 于 版 本 更 新 已 经 被 废弃 。 虽 然 如 此 ， 我 们 仍旧 选择 用 这 个 原始 的 2017 版 本 环境 来 做 
示范 ， 因 为 它 相 对 简单 。 于 是 ， 在 我 们 的 项 目 中 提供 了 一 个 仓库 存放 2017 版 本 的 环境 : 













































































git clone 


https://github.com/deep-reinforcement-learning-book/Chapter13-Learning-to-Run.git 



































我 们 所 用 的 强化 学 习 算 法 代码 和 环境 的 封装 也 都 在 上 述 仓库 中 提供 。 
通过 以 上 几 步 ， 我 们 已 经 完成 了 环境 的 安装 ， 可 以 通过 以 下 命令 检验 安装 是 否 成 功 ; 





























python -c "import opensim" 




















如 果 它 能 正常 运行 ， 说 明 安 装 已 成 功 ， 否 则 ， 可 以 在 这 个 网 站 找到 解决 方案 。 
要 用 随机 采样 执行 200 次 模拟 迭代 ， 我 们 可 以 用 Python 解释 器 运行 以 下 命令 (在 Linux I 











境 ): 





from osim.env import RunEnv # 导入 软件 包 


env = RunEnv(visualize-True) 4 初始 化 环境 
observation = env.reset(difficulty = 0) # 重 置 环境 
for i in range(200): # 采集 样本 


observation, reward, done, info = env.step(env.action_space.sample()) 












































这 个 环境 由 于 已 被 写成 OpenAI Gym 游戏 的 格式 ， 对 用 户 十 分 友好 ， 而 且 有 一 个 定义 好 的 奖 
励 函 数 。 我 们 的 任务 是 得 到 一 个 从 当前 观察 量 〈 一 个 41 维 矢量 ) 到 肌肉 激活 动作 (18 ERE) 
的 映射 函数 ， 使 得 它 能 够 最 大 化 奖励 值 。 如 前 所 述 ， 奖 励 函数 被 定义 为 一 个 迭代 步 中 骨盆 沿 > 轴 
的 位 移 减 去 蔬 带 受 力 大 小 ， 从 而 尽 可 能 鼓励 智能 体 在 最 小 身体 损耗 的 情况 下 向 前 移动 。 







































































13.2 智能 体 


为 了 更 好 地 解决 这 个 任务 ， 在 训练 框架 中 需要 实现 一 系列 技巧 ， 包 括 : 
。 一 个 可 以 平衡 CPU 和 GPU 资源 的 并 行 训练 框架 ; 
。 奖励 值 缩放 ; 
。 指数 线性 单元 (Exponential Linear Unit, ELU) 激活 函数 ; 
。 层 标准 化 〈Layer Normalization); 
。 动 作 重 复 ; 
。 更 新 重复 ; 
。 观 察 量 标准 化 和 动作 离散 化 可 能 是 有 



















































































=> 
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] 的 ， 但 我 们 未 在 提供 的 解决 方案 
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。 根 据 智 能 体 双 腿 的 对 
注意 ， 根 据 竞赛 参与 团体 


























称 性 所 做 的 数据 增强 可 
的 实验 和 报 











该 具体 任务 的 方法 而 





不 对 








他 任务 / 








He 
H 














ZE 











察 量 标准 化 、 动 作 值 离散 化 和 数据 增强 是 可 以 根据 一 





这 个 环境 一 个 典型 的 











PITTA). Ay SBE re BCH 


13.2.1 并行 训练 


至 少 有 两 个 原 
Run 环境 较 慢 的 模拟 速度 ， 




















因 需 要 我 





门 对 这 个 任务 进 
至 少 耗 时 几 十 秒 完成 一 个 模拟 片段 。 




















行 并 行 让 























Ab E 
能 是 | 























] 的 ， 但 我 们 未 在 提 作 
， 后 两 个 技巧 也 可 能 是 
]， 我 们 未 在 这 里 的 解决 方案 ! 














的 解决 方案 中 使 用 。 
有 用 的 ， 但 由 于 它们 更 多 基于 















































TH 
| 入 























1H 
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AA re EAT, FE“ CPU 上 完成 单个 片段 至 
也 学 习 策 略 ， 我 们 需要 将 采样 和 
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| 练 。 


| 练 过 程 


] 。 然 而 ， 要 知道 观 
] 来 加 速 学 习 过 程 的 。 
JLF 



































FE 务 的 





S 





青 况 应 











ae 
少 需要 





并 行 化 。 





第 一 个 是 


由 于 上 面 所 述 Learning to 
第 二 个 是 由 于 该 环境 有 较 高 的 内 


Al 











在 复杂 度 。 基 于 作者 经 验 ， 这 个 环境 用 普通 的 无 模型 (Model-Free) 强化 学 习 算法 ， 如 深度 决定 


性 策略 梯度 (Deep Deterministic Policy Gradient, DDPG) 或 柔性 Actor-Critic (Soft ActorCritic， 


SAC)， 需 要 至 少 上 百 个 CPU/CPU 计算 小 时 来 获 


跨 GPU 的 训练 框架 。 








由 于 Learning to Run 环境 的 高 复杂 度 ， 训 练 过 程 
现 。 此 外 ，CPU 和 GPU 之 间 的 了 
向 传播 训练 过 程 


CPU 上 ， 而 反 
关于 并 行 训练 ! 
解决 这 个 任务 的 方案 。 
































如 图 13.2 所 示 , 在 














般 的 单 进程 











4H 
Nj 





一 个 较 好 的 策 























各 。 K 











个 多 进程 


此 ， 这 里 需要 























F 衡 对 这 个 任务 也 很 关键 ， 
一 般 是 在 GPU b. E^ xf 


ae HH 
ny 女 








多 个 CPU 和 GPU 来 并 行 分 布 实 
为 与 环境 交互 采样 的 过 程 一 般 是 在 
的 训练 效率 在 实践 中 满足 短 板 效应 。 








大 


























如 何 均衡 CPU 和 GPU 计算 的 内 容 在 第 12 章 和 第 18 章 中 也 有 讨论 。 这 里 有 一 种 


深 








法 充分 发 挥 计 算 资 源 的 潜力 ， 尤 其 在 




















训练 架构 ， 其 中 ， 
可 以 共享 同一 个 GPU, 
同一 个 GPU 的 进程 数 
的 利用 率 。 
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132 ”在 离线 策略 深度 强化 学 习 中 进行 单 








训练 (进程 ) 





度 强化 学 习 中 ,训练 过 程 由 一 个 进程 来 处 理 
了 多 个 CPU 核 和 多 个 GPU 的 情 



































b b. 














推送 BT 























进程 训练 ， 只 


(EEES ) 
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个 
| 





进程 来 采样 和 训练 策略 




















图 13.3 展示 了 在 多 个 CPU 和 多 个 GPU 上 部 署 离线 策略 COff-Policy) 深度 强化 学 习 的 并 行 
一 个 智能 体 和 一 个 环境 被 封装 进 一 个 “工作 者 ”来 运行 一 个 进程 。 





多 个 工作 者 























为 有 时 单个 工作 者 无 法 完全 
和 工作 者 数量 可 以 被 手动 设置 ， 从 而 在 学 习 过 程 ， 








占 




















整个 GPU 内 存 。 在 这 种 设置 下 ， 使 用 
最 大 化 所 有 计算 资源 



































13.2 ”训练 智能 体 



































训练 
= (进程 : CPU 核 0) 
seth (TH 
GPU 0 
工作 者 ae CPU f 1) 经 验 回放 缓存 
SER) 环境 
GPU M 工作 者 (进程 : cPU 核 N) 














a 
智能 体恤 ( 环境 









图 133 一 个 离线 策略 深度 强化 学 习 的 并 行 训练 架构 。 每 个 工作 者 包含 一 个 与 环境 交互 的 智能 
体 ， 策 略 被 分 布 在 多 个 GPU 上 训练 























我 们 的 项 目 提供 了 一 个 高 度 并 行 化 的 SAC 算法 ， 它 使 用 上 述 架 构 来 解决 这 个 需要 多 进程 和 
多 GPU 计算 的 任务 。 由 于 多 进程 的 内 存 之 间 互 相 不 共享 ， 需 要 用 特殊 的 模块 来 处 理 信息 交流 和 
参数 共享 。 在 代码 中 ， 回 放 组 冲 区 通过 Python 内 的 multiprocessing 模块 共享 ， 训 练 过 程 中 的 
网 络 和 参数 更 新 由 PyTorch 的 multiprocessing 模块 共享 (在 Linux 系统 上 )。 
实践 中 ， 尽 管 每 个 工作 者 包含 一 个 智能 体 ， 但 是 智能 体内 的 网 络 实际 在 多 个 工作 者 间 共 享 ， 
寻 此 实际 上 只 保留 了 一 套 网 络 (用 于 一 个 智能 体 的 )。PyTorch 的 nn.Module 模块 可 以 处 理 使 用 
多 个 进程 更 新 共享 内 存 中 网 络 参 数 的 情况 。 由 于 Adam 优化 器 在 训练 中 也 有 一 些 统计 量 ， 我 们 使 
用 以 下 ShareParameters O 函数 来 在 多 进程 中 共享 这 些 值 : 






















































































































































































































































































def ShareParameters(adamoptim) : 
# 共享 Adam 优化 器 的 参数 便于 实现 多 进程 


for group in adamoptim.param_groups: 

















for p in group[’params’]: 
state = adamoptim.state[p] 
# 初始 化 : 需要 在 这 里 初始 化 ， 否 则 无 法 找到 相应 量 


state[’step’] = 0 














state['exp avg'] = torch.zeros_like(p.data) 
state['exp avg sq'] = torch.zeros like(p.data) 











# 在 内 存 中 共享 


state['exp. avg' ]. share memory. () 








state['exp. avg. sq']. share memory (OO 
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在 训练 函数 中 ， 我 们 用 以 下 方式 设置 SAC 算法 中 的 共享 模块 ， 包 括 网 络 和 优化 器 : 


























# 共享 网 络 

sac_trainer.soft_q_net1.share_memory() 

Sac trainer.soft q net2.share memory() 

sac trainer.target soft q netl.share memory() 
sac trainer.target soft q net2.share memory() 
Sac trainer.policy net.share memory() 

# 共享 优化 器 参数 
ShareParameters(sac_trainer.soft_q_optimizer1) 














ShareParameters(sac_trainer.soft_q_optimizer2) 
ShareParameters(sac_trainer.policy_optimizer) 


ShareParameters(sac_trainer.alpha_optimizer) 









































share memory() 是 一 个 继承 自 PyTorch 的 nn.Module 模块 的 函数 ， 可 用 于 共享 神经 网 络 。 
我 们 也 可 以 共享 炉 因子 ， 但 是 在 这 个 代码 里 没有 实现 它 。“forkserver” 启 动 方法 是 在 Python 3 中 
使 用 CUDA 子 进 程 所 需 的 ， 如 代码 中 所 示 : 































































































torch.multiprocessing.set start method('forkserver', force=True) 
































Iz] 








放 组 冲 区 可 以 用 Python 的 multiprocessing 模块 共享 : 





from multiprocessing.managers import BaseManager 


replay buffer size = 1e6 

BaseManager.register('ReplayBuffer', ReplayBuffer) 

manager - BaseManager() 

manager.start() 

replay buffer - manager.ReplayBuffer(replay buffer. size) 
4 通过 manager 来 共享 经 验 回 放 缓 存 















































] “forkserver” 启 动 方法 ， 








€ 


在 克隆 下 来 的 文件 夹 中 运行 以 下 命令 来 开始 训练 ( 注 日 于 使 


所 以 在 Windows 10 上 无 法 进行 这 样 的 并 行 训练 ): 


F 
LH 











U 

















python sac learn.py --train 








我 们 也 可 用 以 下 命令 测试 训练 的 模型 : 





python sac_learn.py --test 
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13.2 ”训练 智能 体 





13.2.2 ”小 技巧 






































然而 ， 即 便 使 用 了 上 面 的 并 行 架 构 ， 我 们 仍旧 不 能 在 这 个 任务 上 取得 很 好 的 表现 。 由 于 任务 
的 复杂 性 和 深度 学 习 模 型 的 非 线性 ， 损 失 函 数 上 的 局 部 最 优 和 非 平滑 甚至 不 可 微 的 曲面 都 容易 使 
优化 过 程 陷入 困境 (对 于 策略 或 价值 函数 )。 在 使 用 深度 强化 学 习 方法 的 过 程 中 经 常 需要 一 些微 
调 策略 ， 尤 其 是 对 像 Learning to Run 这 样 的 复杂 任务 。 所 以 ， 下 面 介 绍 我 们 使 用 的 一 些小 技 




































































































































































巧 ， 来 更 高 效 和 稳定 地 解决 这 个 任务 。 























奖励 值 缩放 : 奖励 值 缩 放 遵循 一 般 的 值 缩放 规则 ， 即 将 奖励 值 除 以 训练 过 程 中 所 采 批 样本 
的 标准 差 。 奖 励 值 缩放 ， 或 叫 标准 化 和 归 一 化 ， 是 强化 学 习 中 使 训练 过 程 稳定 而 加 速 收敛 
速度 的 常用 技术 手段 。 如 SAC 算法 后 续 的 一 篇 文章 (Haarnoja et al., 2018) 所 报道 的 ， 最 大 
炉 强 化 学 习 算法 可 能 对 奖励 函数 的 缩放 敏感 ,这 不 同 于 其 他 传统 强化 学 习 算 法 。 因 此 , SAC 
算法 的 作者 添加 了 一 个 基于 梯度 的 温度 调 校 模块 用 作 灶 正 则 化 项 ， 这 显著 缓解 了 实践 中 超 
参数 微调 过 程 的 困难 。 

指数 线性 单元 (Exponential Linear Unit, ELU) (Clevert et al., 2015) 激活 函数 被 用 以 替代 
整流 线性 单元 (Rectified Linear Unit, ReLU) (Agarap, 2018): 为 了 得 到 更 快 的 学 习 过 程 和 
更 好 的 泛 化 表现 ， 我 们 使 用 ELU 作为 策略 网 络 隐藏 层 的 激活 函数 。ELU 函数 定义 如 下 : 


£, ifr0 
r-d (13.1) 


aexp(r—1), ifa <0 













































































































































































ELU 和 ReLU 的 对 比如 图 13.4 所 示 。 相 比 于 ReLU，ELU 有 负数 值 ， 这 使 得 它 能 够 将 神经 单 
元 激活 的 平均 值 拉 至 更 接近 0 的 位 置 ， 如 同 批 标准 化 ， 但 是 却 有 着 更 低 的 计算 复杂 度 。 均 
值 移动 到 趋 于 0 可 以 加 速 学 习 ， 因 为 它 通 过 减少 神经 单元 激发 造成 的 移动 偏差 ， 使 得 一 般 
的 梯度 更 加 接近 于 神经 网 络 单元 的 自然 梯度 。 

层 标准 化 : 我 们 也 对 价值 网 络 和 策略 网 络 的 每 个 隐藏 层 使 用 层 标 准 化 (Ba et al., 2016)。 相 比 
于 批 标准 化 〈Batch Normalization) ， 层 标准 化 对 单个 训练 样本 在 某 神经 网 络 层 上 的 神经 元 
的 累加 输入 计算 均值 和 方差 来 进行 标准 化 。 每 个 神经 元 有 其 与 众 不 同 的 适应 性 偏差 (Bias) 
和 增益 〈Gain)， 这 些 值 在 标准 化 之 后 和 非 线性 激活 之 前 被 添加 到 神经 元 的 值 上 。 这 种 方法 
在 实际 中 可 以 帮助 加 速 训练 过 程 。 
动作 重复 : 我 们 在 训练 过 程 中 使 用 一 个 常见 的 技巧 叫 动作 重复 〈 或 叫 跳 帧 )， 来 加 速 训 练 的 
执行 时 间 (Wall-Clock Time) 。DQN 原文 中 使 用 跳 帧 和 像素 级 的 最 大 化 〈Max) 算 子 来 实 
现在 Atari 2600 游戏 上 基于 图 像 的 学 习 。 如 果 我 们 定义 单个 帧 的 原始 观察 量 是 0;， 其 中 i 
表示 帧 指标 ， 原 始 DON 文章 中 的 输入 是 4 个 堆 释 帧 ， 其 中 每 个 是 两 个 连续 帧 中 的 最 大 值 ， 
BY [max(0;_1, 0;),max(0;+3, 0444), max(0i47,0i48),， max(0i411;0i4+12)]， 对 应 的 跳 帧 率 就 是 


4 实际 上 ， 对 于 不 同 游戏 ， 该 跳 帧 率 可 以 是 2,3 或 4)。 在 这 些 跳 过 的 帧 中 ， 动 作 被 重复 执 
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第 13 3 Learning to Run 
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图 134 PEE ReLU 和 ELU 激活 函数 。ELU 在 零点 可 微 

















行 。 最 大 化 算 子 在 图 像 观察 量 上 按 像 素 计 算 ， 奖 励 函 数 对 所 有 跳 过 和 不 跳 过 的 帧 累加 。 原 
人 DQN 中 的 跳 帧 机 制 增加 了 随机 性 ， 同 时 加 速 了 采样 率 。 然 而 ， 在 我 们 的 任务 中 ， 我 们 使 

用 一 种 不 同 的 设置 ， 不 使 用 最 大 化 算 子 和 扒 倒 帧 : 每 个 动作 在 跳 过 的 帧 上 进行 简单 的 重复 
执行 ， 包 括 跳 过 帧 和 未 跳 过 帧 在 内 的 所 有 样本 被 存 入 回放 绥 冲 区 。 实 践 中 ， 我 们 使 用 3 TE 
为 动作 重复 率 ， 减 少 了 策略 与 环境 交互 所 需 的 正 向 推理 时 间 。 

。 更 新 重复 : 我 们 也 在 训练 中 使 用 一 个 小 的 学 习 率 并 重复 更 新 策略 的 技巧 ， 从 而 策略 以 重复 
K 3 在 同一 个 批 样本 上 进行 学 习 。 
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13.2.3 学 习 结 果 

通过 以 上 设置 和 SAC 算法 上 的 这 些小 技巧 ， 智 能 体能 够 在 3 天 的 训练 时 长 下 学 会 用 人 类 的 
方式 奔跑 很 长 的 一 段 距 离 ， 训 练 是 在 一 个 4GPU 和 56CPU 的 服务 器 上 进行 的 ， 结 果 如 图 13.5 所 
示 。 图 13.6 展示 了 学 习 曲 线 , 包括 原始 的 奖励 函数 值 和 移动 平均 的 平滑 曲线 ， 呈现 了 上 升 的 学 习 
表现 。 纵 轴 是 一 个 片段 内 的 累计 奖励 值 ， 显 示 了 智能 体 奔跑 的 距离 和 姿势 状况 。 
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136 Learning to Run 任务 的 学 习 过 程 ( 见 彩 插 ) 
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鲁 棒 的 图 像 增 强 























深度 生成 模型 相 较 于 经 典 的 算法 ， 在 超 分 辩 率 、 图 像 分 割 等 计算 机 视觉 任务 中 ， 取 得 了 显著 
的 进展 。 然 而 ， 这 种 基于 学 习 的 方法 缺乏 鲁 棒 性 和 可 解释 性 ， 限 制 了 它们 在 现实 世界 中 的 应 用 。 
本 章 将 讨论 一 种 鲁 棒 的 图 像 增强 方法 ， 它 可 以 通过 深度 强化 学 习 与 许多 可 解释 的 技术 进行 结合 。 
我 们 将 先 从 一 些 图 像 增强 的 背景 知识 进行 介绍 ,接着 将 图 像 增 强 的 过 程 看 作 一 个 由 马尔 可 夫 决 策 
过 程 (Markov Decision Process, MDP) 建 模 的 处 理 流 程 。 最 后 ， 我 们 将 展示 如 何 通过 近 端 策略 优 
化 〈Proximal Policy Optimization, PPO) 算法 构建 智能 体 来 处 理 这 个 MDP 过 程 。 实 验 环境 由 一 
个 真实 世界 的 数据 集 构建 ， 包 含 5000 张 照片 ， 其 中 包括 原始 图 像 和 专家 调整 后 的 版 本 。 项 目 代 
码 链 接见 读者 服务 。 







































































































































































14. ”图像 增强 


图 像 增强 技术 属于 图 像 处 理 技 术 。 它 的 主要 目标 是 使 处 理 后 的 图 像 更 适合 各 种 应 用 的 需要 
典型 的 图 像 增强 技术 包括 去 品 、 去 模糊 和 亮度 改善 。 现 实 世界 中 的 图 像 总 是 需要 多 种 图 像 增 强 技 
AR. Bd 14.1 显示 了 一 个 包括 亮度 改善 和 去 噪 的 图 像 增强 流程 。 专 业 的 照片 编辑 软件 ， 如 Adobe 
Photoshop， 提 供 强大 的 修 图 能 力 ， 但 效率 不 高 ， 需 要 用 户 在 照片 编辑 方面 具备 专业 知识 。 在 诸 
如 推荐 系统 这 样 的 大 规模 场景 中 ， 图 像 的 主观 质量 对 用 户 体验 至 关 重 要 ， 因 此 需要 一 种 满足 有 效 
性 、 和 鲁 棒 性 和 效率 的 自动 图 像 增强 方法 。 其 中 和 鲁 棒 性 是 最 重要 的 条 件 ， 尤 其 是 在 用 户 生 成 内 容 的 
平台 上 ， 比 如 Facebook 和 Twitter， 即 使 1% 的 较 差 情况 (Bad Case) 也 会 伤害 数 百 万 用 户 的 使 用 
体验 。 

与 图 像 分 类 或 分 割 有 着 其 独特 的 真实 值 (Ground Truth) 不 同 ， 图 像 增 强 的 训练 数据 依赖 于 
人 类 专家 。 因 此 ， 图 像 增强 并 没有 大 规模 的 公共 图 像 增强 数据 集 。 经 典 的 图 像 增强 方法 主要 基于 
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14.1 图 像 增强 











图 14.1 


一 个 图 像 增 强 流程 的 案例 。 左 侧 的 原始 图 像 存 在 JPEG 压缩 噪声 并 且 曝 光 不 足 ( 见 彩 插 ) 

















的 是 伽 马 校 正和 直方 图 均衡 化 ， 以 及 先 验 的 专家 知识 。 这 些 方法 也 不 需要 大 量 的 数据 。 伽 马 校正 
利用 了 人 类 感知 的 非 线性 ， 比 如 ， 我 们 感知 光 和 颜色 的 能 力 。 直 方 图 均衡 化 实现 了 人 允许 局 部 对 比 


度 较 低 的 区 域 获得 更 高 的 对 比 度 ， 以 更 好 地 分 布 在 像素 直方 图 上 的 思想 ， 这 在 背景 和 前 景 为 全 亮 








































































































RER COX 射线 图 像 ) 时 非常 有 用 。 这 些 方法 虽然 快速 、 简 单 , 但 是 缺乏 对 上 下 文 信息 的 考虑 ， 








限制 了 它们 的 应 用 。 






































最 近 , 有 学 者 使 用 基于 学 习 的 方法 , 试图 用 CNN 拟 合 从 输入 图 像 到 所 需 像素 值 的 映射 , 并 取 
得 了 很 大 的 成 功 (Bychkovsky et al., 2011; Kupyn et al., 2018; Ulyanov et al., 2018; Wang et al., 2019). 
然而 ， 这 种 方法 也 存在 问题 。 首 先 ， 很 难 训练 出 一 个 能 处 理 多 种 增强 情况 的 综合 神经 网 络 。 此 外 ， 
像素 到 像素 的 映射 缺乏 鲁 棒 性 ， 例 如 ， 在 处 理 诸 如 头发 和 字符 等 细节 信息 时 ， 它 的 表现 不 是 很 
好 (Nataraj et al., 2019; Zhang et al., 2019)。 一 些 研 究 者 提出 ， 将 深度 强化 学 习 应 用 于 图 像 增 强 ， 将 
增强 过 程 描述 为 一 系列 策略 迭代 问题 ， 以 解决 上 述 问 题 。 在 本 章 中 ， 我 们 遵循 这 些 方法 ， 并 提出 
一 种 新 的 MDP 公式 来 进行 图 像 增 强 。 我 们 在 一 个 包含 5000 对 图 像 的 数据 集 上 用 代码 示例 演示 





了 我 们 的 方法 ， 以 提供 快速 的 实际 学 习 过 程 。 

























































































在 讨论 算法 之 前 , 我 们 先 介绍 两 个 Python 库 : Pillow (Clark, 2015) 和 scikit-image (Van der Walt 
et al., 2014)。 它 们 提供 了 许多 友好 的 接口 来 实现 图 像 增强 。 可 以 使 用 如 下 代码 直接 从 PyPI 安装 


它们 : 



































pip install Pillow 


pip install scikit-image 





T 











MÆ Pillow 的 子 模 块 ImageEnhance 调整 对 比 度 的 示例 代码 。 








from PIL import ImageEnhance 


def adjust_contrast(image_rgb, contrast_factor): 
# 调整 对 比 度 
# 参数 : 
# image_rgb (PIL.Image): RGB 图 像 
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# contrast factor (float): 颜色 平衡 因子 范围 从 8 i. 








# 返回 : 

# PIL.Image 对 象 

# 

enhancer = ImageEnhance.Contrast(image rgb) 


return enhancer. enhance(contrast_factor) 





14.2 ”用 于 和 鲁 棒 处 理 的 强化 学 习 



























































基于 强化 学 习 的 颜色 增强 方法 。 为 了 简单 起 见 ， 我 们 只 采取 4 








在 将 强化 学 习 应 用 于 图 像 增强 时 ， 首 先 需 要 考虑 如 何 构造 该 领域 的 马尔 可 夫 决 策 过 程 。 一 个 
自然 出 现 的 想法 是 将 像素 处 理 为 状态 ， 将 不 同 的 图 像 增 强 技术 视 为 强化 学 习 的 动作 。 该 构想 提供 
了 几 种 可 控 的 初级 增强 算法 的 组 合 方法 ， 以 获得 稳健 、 有 效 的 结果 。 在 本 节 中 ， 我 们 将 讨论 这 种 
全 局 增强 操作 。 值 得 一 提 的 是 ， 通 过 
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区 域 候选 模块 (Ren et al., 2015) 来 适应 一 般 的 增强 算法 也 是 很 E 








然 的 想法 。 


























假设 训练 集 包 含 N 对 RGB AK (0, hi) H o SL 为 低 质量 原始 
图 像 。 为 了 保持 数据 分 布 ， 初 始 状态 So 应 从 {1}, 中 均匀 采样 。 在 每 步 中 ， 
预定 义 对 动作 ， 如 调整 对 比 度 ， 再 将 它 应 用 于 当前 状态 。 需 要 注意 的 是 ， 当 前 状态 和 选择 动作 完 






















































































全 决定 了 状态 转移 。 也 就 是 说 ， 环 境 没 有 不 确定 性 。 我 们 在 之 前 了 












































图 像 ，h; 是 高 质量 修复 


智能 体会 执行 一 个 





[ 作 的 基础 上 (Furuta et al., 2019; 


Park et al., 2018) 上 继续 研究 ， 并 使 用 了 CIELAB 颜色 空间 作为 转移 奖励 函数 。 





IL(h) = L(S¢)|13 — IL) 一 二 Sol 


(14.1) 


其 中 凡是 对 应 的 高 质量 图 像 So LÆ RGB 颜色 空间 到 CIELAB 颜色 空间 到 映射 。 








另 一 个 重点 是 定义 学 习 和 评估 时 的 终结 状态 。 在 游戏 的 强化 学 习 应 用 中 ， 
































境 决定 。 而 与 此 不 同 的 是 ， 在 图 像 增 强 中 的 智能 体 需要 由 




















终结 状态 可 以 由 环 


已 决定 退出 时 机 。 文 献 (Park et al., 











2018) 提出 了 一 个 基于 DON 的 智能 体 ， 它 在 所 有 动作 预测 的 Q 值 都 为 负数 时 会 退出 。 然 而 ，Q- 














Learning 中 由 函数 近似 引起 的 过 估计 问题 可 能 会 导致 推理 过 程 的 鲁 棒 性 
































降低 。 





我 们 通过 训练 一 个 











明确 的 策略 并 增加 一 个 用 于 退出 选择 的 “无 操作 ”动作 来 处 理 这 个 问题 。 表 14.1 列 出 了 所 有 预 





定义 的 动作 ， 其 中 索引 为 0 的 动作 表示 “无 操作 ”动作 。 















































从 零 开 始 训练 一 个 卷 积 神经 网 络 需 要 大 量 的 原始 -修复 图 像 对 。 因 此 ， 我 们 不 使 用 原始 图 像 





状态 作为 观测 值 的 方案 ， 而 是 考虑 使 用 在 ILSVRC 分 类 数据 集 (Russakovsky et al., 2015) 上 预 训 练 






































的 ResNet50 网 络 中 的 最 后 一 层 卷 积 层 的 激活 值 作为 深层 特征 输入 。 这 样 的 深 
可 以 提升 许多 其 他 视觉 识别 任务 的 效果 (Redmon et al., 2016; Ren et al., 2016). 
et al., 2005; Park et al., 2018) 的 启发 ， 我 们 在 构造 观测 信息 时 进一步 考虑 使 月 
































层 特 征 十 分 重要 , € 
受到 前 人 工作 (Lee 



































日 直方 图 信息 。 具 体 来 











说 ,我 们 计算 了 RGB 颜色 空间 在 (0, 255), (0, 255), (0, 255) 范围 内 和 CIELab 颜色 空间 在 (0, 100), 
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(—60, 60), (一 60, 60) 范 

















简介 


表 14.1 全 局 图 像 增强 动作 和 集 
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围 内 的 统计 信息 。 
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这 三 


个 特征 连 








成 2048 4 








2000 维 的 观测 信息 。 接 着 ， 我 














们 选择 PPO (Schulman et al., 2017) 作为 策略 优化 算法 。PPO 是 一 种 Actor-Critic 算法 ， 它 在 一 系 














列 任务 上 已 经 取得 了 显著 的 成 果 。 
动 者 (Actor) 网 络 和 1 层 批判 者 (Critic〉 网 络 。 所 有 





的 输出 分 


包括 5000 张 原始 图 像 ， 而 每 张 原始 图 像 又 有 5 个 不 同 专家 (A/B/C/D/E) 修复 后 的 图 像 。 
专家 C 修复 的 图 像 ， 并 随机 选择 4500 
图 像 是 DNG 格式 的 ， 而 修复 图 
EN 100、 颜 色 空 
图 像 的 最 大 边 为 512 像素 。 














KT BAR 
在 表 14.2! 























接 下 来 开 








始 ， 

















PHA 2048. 512 和 128 个 单元 ， 并 都 使 
我 们 在 MIT-Adobe FiveK (Bychkovsky et al., 2011) 数据 集 上 对 我 们 的 方法 进行 













































































表 14.2 


超 参数 


















































用 于 图 像 : 
































的 工作 (Park et al., 2018; Wang et al., 2019) 之 后 , 我 们 只 使 
张 图 像 进行 训练 ， 剩 下 的 500 张 图 像 用 于 测试 。 原 始 
式 的 。 我 们 使 用 Adobe Lightroom 将 它们 都 转换 为 质量 
也 训练 ， 我 们 也 调整 了 图 像 大 小 ， 


列 出 。 





使 得 每 引 








超 参数 





















































蕊 的 网 络 由 3 部 分 组 成 : 3 层 特 征 抽取 作为 主干 网 络 、1 层 行 
层 都 是 全 连接 的 ， 其 中 特征 抽取 器 中 各 层 
1f ReLU 作为 激活 函数 。 
了 评估 。 其 ! 
继 之 前 
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x 间 为 sRGB 的 JPEG 格式 。 
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我 们 将 演示 如 何 实现 上 述 算 法 ， 首 先 需要 构建 一 个 环境 





class Env(object): 
# 训练 环境 
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def __init__(self, src, max episode length-20, reward_scale=0.1): 
# BR: 
# src (list[str, str]): 原始 图 像 和 处 理 图 像 路 径 的 列表 ， 初 始 状态 将 从 中 均匀 采样 
# max episode length (int): 最 大 可 执行 动作 数量 


self._src = src 











self._backbone = backbone 

self._preprocess = preprocess 

self._rgb_state = None 

self._lab_state = None 

self._target_lab = None 

self._current_diff = None 

self._count = 0 

self._max_episode_length = max_episode_length 
self._reward_scale = reward_scale 

self. info = dictO 

















通过 使 用 TensorFlow 的 ResNet API, 我 们 可 以 通过 | state. feature 函数 构建 观测 数据 。 过 
程 如 下 所 示 : 











backbone = tf.keras.applications.ResNet50(include_top=False, pooling=’ avg’) 


preprocess = tf.keras.applications.resnet50.preprocess_input 


def get. lab hist(lab): 
# 获取 Lab 图 像 的 直方 图 
lab = lab.reshape(-1, 3) 
hist, _ = np.histogramdd(lab, bins=(10, 10, 10), 
range-((8, 100), (-60, 60), (-60, 60))) 
return hist.reshape(1, 1000) / 1000.0 








def get_rgb_hist(rgb): 
# 获取 RGB 图 像 的 直方 图 
rgb = rgb.reshape(-1, 3) 








hist, _ = np.histogramdd(rgb, bins=(10, 10, 10), 
range=((0, 255), (8, 255), (8, 255))) 
return hist.reshape(1, 1000) / 1000.0 


def _state_feature(self): 


s = self._preprocess(self._rgb_state) 
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S = tf.expand dims(s, axis=0) 

context = self. backbone(s).numpy().astype('f10oat32') 

hist rgb = get rgb hist(self. rgb. state).astype(' float32’) 
hist lab = get lab hist(self. lab state).astype('float32') 


return np.concatenate([context, hist rgb, hist lab], 1) 








接着 ， 我 们 构建 和 OpenAI Gym (Brockman et al., 2016) 相同 的 接口 。 其 中 ， 我 们 按照 表 14.1 


定义 转移 函数 _transit， 并 依据 公式 (14.1) 构建 奖励 函数 reward. 








def step(self, action): 
# 执行 单 步 
self._count += 1 
self._rgb_state = self._transit(action) 
self._lab_state = rgb2lab(self._rgb_state) 
reward = self._reward() 
done = self._count >= self._max_episode_length or action == 0 


return self._state_feature(), reward, done, self._info 


def reset(self): 
# BERR 


self._count = 0 





raw, retouched = map(Image.open, random.choice(self._src)) 
self._rgb_state = np.asarray(raw) 

self._lab_state = rgb2lab(self._rgb_state) 

self. target lab = rgb2lab(np.asarray(retouched) ) 
self._current_diff = self._diff(self._lab_state) 
self._info[’max_reward’] = self._current_diff 


return self._state_feature() 











这 里 的 PPO 与 5.10.6 节 实 现 有 所 不 同 。 我 们 将 PPO (Schulman et al., 2017) 算法 用 于 离散 动 














作 情 况 。 需 要 注意 的 是 ， 我 们 将 LogSoftmax 作为 行动 者 网 络 的 激活 函数 ， 这 样 能 在 计算 




















代目 

















标 时 提供 更 好 的 数值 稳定 性 。 对 PPO 智能 体 ， 我 们 先 定义 它 的 初始 化 函数 和 行为 函数 : 














class Agent(object): 
# PPO 智能 体 
def __init__(self, feature, actor, critic, optimizer, 
epsilon=0.1, gamma=0.95, cl=1.0, c2-1e-4, gae_lambda=0.95): 
# 参数 : 
# feature (tf.keras.Model): 行动 者 和 批判 者 的 基础 网 络 
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actor (tf.keras.Model): 行动 者 网 络 

critic (tf.keras.Model): 批判 者 网 络 

optimizer (tf.keras.optimizers.Optimizer): 优化 器 
epsilon (float): 裁剪 操作 中 的 epsilon 

gamma (float): 奖励 折扣 

cl (float): 价值 损失 系数 

c2 (float): WARK 


self.feature, self.actor, self.critic = feature, actor, critic 


+ + Ft + H Gk H 


self.optimizer = optimizer 


self._epsilon = epsilon 
self.gamma = gamma 

self._cl = cl 

self._c2 = c2 
self.gae_lambda = gae_lambda 


def act(self, state, greedy=False): 
# BR: 
# state (numpy.array): 1 * 4048 维 的 状态 
# greedy (bool): 是 否 要 选取 贪心 动作 
# Returns: 
# action (int): 所 选择 的 动作 
# logprob (float): 所 选 动作 的 概率 对 数 
# value (float): 当前 状态 的 价值 
feature = self.feature(state) 
logprob = self.actor(feature) 
if greedy: 
action = tf£.argmax(logprob[0]) .numpy() 
return action, 0, 0 
else: 
value = self.critic(feature) 
logprob = logprob[0] .numpy() 
action = np.random.choice(range(len(logprob)), p=np.exp(logprob) ) 


return action, logprob[action], value.numpyO [9, 0] 
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在 采样 过 程 中 ， 我 们 通过 GAE (Schulman et al., 2015) 算法 记录 轨迹 。 











def sample(self, env, sample_episodes, greedy=False): 
# 从 给 定 环境 中 采样 一 个 轨迹 
# 参数 : 
# env: 给 定 的 环境 
# sample episodes (int): 要 采样 多 少 片段 
# greedy (bool): 是 否 选取 贪心 动作 


trajectories = [] £ s, a, r, logp 





e reward = 0 


e reward max = 0 


for _ 


in range(sample episodes): 
S = env.reset() 
values - [] 
while True: 
a, logp, v = self.act(s, greedy) 
s_, r, done, info = env.step(a) 
e reward += r 
values.append(v) 
trajectories.append([s, a, r, logp, v]) 
S-s. 
if done: 
e reward max += info['max reward'] 
break 
episode len - len(values) 
gae - np.empty(episode len) 
reward - trajectories[-1][2] 
gae[-1] = last gae = reward - values[-1] 
for i in range(1, episode len): 
reward = trajectories[-i - 1][2] 


* 


delta = reward + self.gamma values[-i] - values[-i - 1] 


gae[-i - 1] = last gae = \ 


* 


delta + self.gamma * self.gae lambda * last. gae 
for i in range(episode len): 


trajectories[-Cepisode len - i)][2] = gae[i] + values[i] 


e reward /- sample episodes 


e reward max /- sample episodes 


return trajectories, e reward, e reward max 
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最 后 ， 策 略 优化 的 部 分 如 下 所 示 ， 其 中 价值 损失 裁剪 和 优势 标准 化 遵循 文献 (Dhariwal et al., 
2017) 的 描述 。 

















def _train_func(self, b_s, b_a, b_r, b_logp_old, b_v_old): 
# 训练 函数 


all_params = self.feature.trainable_weights + \ 





self.actor.trainable_weights + \ 
self.critic.trainable_weights 
with tf.GradientTape() as tape: 
b_feature = self.feature(b_s) 


b_logp, b_v = self.actor(b_feature), self.critic(b_feature) 


entropy = -tf.reduce mean( 
tf.reduce_sum(b_logp * tf.exp(b_logp), axis=-1)) 
b_logp = tf.gather(b_logp, b_a, axis=-1, batch_dims=1) 
adv = b_r - b_v_old 
adv = (adv - tf.reduce_mean(adv)) / (tf.math.reduce std(adv) + 1e-8) 


b. v. old + tf.clip by value(b v - b v old, 


-self. epsilon, self. epsilon) 


cb v 


I 





vloss = 0.5 * tf.reduce max(tf.stack( 
[tf.pow(b v - b_r, 2), tf.pow(c_b_v - br, 2)], axis=1), axis=1) 


vloss = tf.reduce mean(vloss) 


ratio = tf.exp(b_logp - b_logp_old) 

clipped_ratio = tf.clip_by_value( 
ratio, 1 - self._epsilon, 1 + self._epsilon) 

pgloss = -tf.reduce mean(tf.reduce min(tf.stack( 
[clipped ratio * adv, ratio * adv], axis-1), axis-1)) 


x 


total loss = pgloss + self. c1 * 


* 


vloss - self. c2 * entropy 
grad - tape.gradient(total loss, all params) 
self.optimizer.apply. gradients(zip(grad, all params)) 


return entropy 


def optimize(self, trajectories, opt iter): 
# 基于 给 定 轨迹 数据 进行 优化 
b_s, b a, b_r, b_logp_old, b v. old = zip(*trajectories) 
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b_s = np.concatenate(b_s, 0) 
b_a = np.expand_dims(np.array(b_a, np.int64), 1) 
b_r = np.expand_dims(np.array(b_r, np.float32), 1) 
b_logp_old = np.expand_dims(np.array(b_logp_old, np.float32), 1) 
b_v_old = np.expand_dims(np.array(b_v_old, np.float32), 1) 
b_s, b. a, b_r, b_logp_old, b. v old = map( 
tf.convert_to_tensor, [b_s, b_a, b_r, b_logp_old, b_v_old]) 








for _ in range(opt_iter): 


entropy = self._train_func(b_s, b_a, b_r, b_logp_old, b_v_old) 





return entropy.numpy() 














最 终 经 过 训练 后 ， 智 


T; 
mp 
SC 
= 
NE 
= 
二 
Rİ 











ERTS GRAS RENS. B 14.2 展示 了 一 个 训练 效果 样 例 。 








原始 图 像 本 章 效果 

















图 142 一 个 在 MIT-Adobe Fivek 数据 集 上 使 用 全 局 增强 的 效果 样 例 。 当 右上 角 的 天 空 等 区 域 需 要 
局 部 增强 时 ， 全 局 亮度 会 增加 ( 见 彩 插 ) 
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AlphaZero 






































本 章 首先 介绍 组 合 博弈 问题 〈 如 象棋 、 围 棋 等 ) 的 概念 ， 然 后 以 五 子 棋 为 例 介 绍 AlphaZero 
算法 。AlphaZero 算法 作为 棋 类 问题 的 通用 算法 ， 在 许多 挑战 巨大 的 棋 类 游戏 中 都 取得 了 超越 人 
类 的 表现 ， 例 如 围棋 、 国 际 象棋 、 日 本 将 棋 等 。 该 算法 结合 蒙特 卡 罗 树 搜索 和 深度 强化 学 习 自 博 
弈 ， 是 人 工 智能 史上 的 标志 性 算法 。 本 章 分 为 三 个 部 分 : 第 一 部 分 介绍 组 合 博弈 的 概念 ， 第 二 部 
分 介绍 蒙特 卡 罗 树 搜索 算法 ， 第 三 部 分 以 五 子 棋 为 例 ， 详 细 介绍 AlphaZero 算法 。 
















































































































































































15. 简介 











AlphaGo Zero (Silver et al., 2017b) 算法 在 围棋 中 取得 了 超越 人 类 冠军 的 表现 , AlphaZero (Silver 
et al., 2017a, 2018) 算法 是 AlphaGo Zero 的 通用 版 本 。 相 比 最 初 击败 人 类 选手 的 AlphaGo (Silver 
et al., 2016) 系列 算法 AlphaGo Fan (击败 Fan Hui), AlphaGo Lee (击败 Lee Sedol) 和 AlphaGo 
Master〈 击 败 柯 洁 )，AlphaZero 算法 完全 基于 自 博 弈 〈Self-Play) 的 强化 学 习 从 零 开 始 提升 。 它 
没有 利用 人 类 专家 数据 进行 监督 学 习 ， 而 是 直接 从 随机 动作 选择 开始 探索 。AlphaZero 有 两 个 关 
键 部 分 : (1) 在 自 博 弈 中 使 用 蒙特 卡 罗 树 搜索 来 收集 数据 ; (2) 使 用 深度 神经 网 络 拟 合 数据 ， 并 
在 树 搜索 过 程 中 用 于 动作 概率 和 状态 价值 估计 。 该 算法 不 仅 适用 于 围棋 ， 还 在 国际 象棋 和 日 本 将 
棋 中 击败 了 世界 冠军 程序 ， 证 明了 该 算法 的 通用 性 。 本 章 首先 介绍 组 合 博弈 〈 包 括 围棋 、 国 际 象 
棋 、 五 子 棋 等 ) 的 概念 ， 并 给 出 无 禁 手 五 子 棋 的 代码 ;然后 介绍 蒙特 卡 罗 树 搜索 的 具体 步骤 最 
后 以 五 子 棋 为 游戏 环境 演示 AlphaZero 算法 的 具体 细节 。 为 了 帮助 读者 理解 ， 我 们 提供 了 五 子 棋 
游戏 和 AlphaZero 算法 的 代码 链接 见 读者 服务 。 
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15.2 


组 合 博弈 





15.2 ”组 合 博 


Zn 
2t 





组 合 博弈 理论 (CGT) (Albert et al., 2007) 是 数学 和 理论 计 
有 完美 信息 (Perfect Information) 的 序列 化 游戏 。 这 类 游戏 























vay ate 






































。 游戏 通 党 包含 两 个 玩家 《如 围棋 








、 象 棋 )。 有 时 只 











AH m 





























具有 以 下 特点 : 
包含 一 个 玩家 的 游戏 (如 数 独 、 
































可 以 看 成 游戏 设计 者 和 玩家 之 间 的 组 合 博弈 。 包 含 两 个 以 上 玩家 的 游戏 不 被 视 为 组 合 博弈 





问题 ， 因 为 游戏 中 会 出 现 合 作 等 更 加 复杂 的 博弈 
。 游 戏 不 包含 任何 























问题 (Browne et al., 2012)。 


影响 游戏 结果 的 随机 性 因素 (Chance Factor), Am. 

















。 游 戏 给 玩家 提供 完美 信息 (Muthoo et al., 1996)， 这 意味 着 每 个 玩家 都 完全 了 解 之 前 发 生 的 











所 有 事件 。 
。 玩 家 以 回 

















合 制 的 方式 执行 动作 ， 且 动作 空间 和 状态 空 | 
。 游 戏 会 在 有 限 步 内 结束 ， 结 果 通 常 为 输赢 ， 有 些 游戏 有 









































司 都 是 有 限 的 。 


:局 情况 。 


许多 组 合 博弈 问题 (Albert et al., 2007)， 包 插 数 独 和 纸牌 等 单 人 游戏 ， 以 及 如 六 连 棋 Hex), 








围棋 























Hi (Amazons), 








(Go) 和 象棋 (Chess) 等 双人 游戏 ， 都 是 计算 机 科 
司 的 深蓝 系统 (Campbell et al., 2002; Hsu, 1999) 击败 了 国际 象棋 
为 了 人 工 智能 的 下 一 个 桥头 堡 。 除 此 之 外 ， 还 有 很 多 j 
日 本 将 棋 (Shogi)、 跳 棋 
(Gomoku) 等 ， 吸 引 了 一 大 批 人 | 
介绍 完 组 合 博弈 的 特点 之 后 ， 我 们 以 五 子 棋 


BM, v EE 外 






































计算 机 来 寻找 解决 方案 。 
为 

















台 ， 当 有 五 个 相同 颜色 的 棋 
有 各 种 各 样 的 规则 ,最 常见 的 规 
(Standard Gomoku) 规则 。 无 禁 手 五 子 棋 只 需要 有 至少 五 个 子 连 成 一 条 线 即 可 

















为 平局 。 五子棋 




















子 连 成 一 条 线 〈 水 平 、 


出 






































FA rin E 





BT 




















Ii t — Ee (CR 
垂直 或 斜 线 ) 时 ， 即 代表 一 名 玩家 获胜 ， 
则 是 无 禁 手 (Freestyle Gomoku) 规则 或 长 连 禁 寻 
赢得 比赛 。 而 长 连 


大 师 
其 他 的 游戏 ， 如 
(Chinese Checkers). JU-# (Connect Four)、 五 子 棋 











的 经 典 问 题 。 
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Ae (Othello). ` 









































ATCP 
棋 作 为 示例 。 

















这 里 我 们 进一步 简化 棋盘 大 小 ， 使 用 3 x 3 的 棋 





需要 恰好 五 个 子 才 代表 获胜 ， 任 何 多 于 五 个 棋 














子 都 不 算 获 胜 。 这 中 












































(我 们 可 以 称 之 为 “三 











TH 








盘 作 为 示例 。 三 个 棋 





”或 井 字 棋 )， 图 15.1 展示 了 在 该 棋盘 上 的 动 











TER 
乍 序列 样 例 。 





田 节 。 首 先 从 一 个 空 棋盘 开 


线 即 表示 获胜 


ih 





否则 





in 


我 们 以 无 禁 手 五 子 











3 x 3 棋盘 上 





图 15.1 
























































示 黑 方 玩 家 在 位 置 5 处 落 子 。 最 终 黑 方 玩家 获得 





棋盘 上 的 红色 数字 表示 不 同 的 位 置 ， 
家 的 棋子 。 游 戏 过 程 可 以 表示 为 一 个 序列 :((b,5), (w, 4), (b, 1), (w, 7), (5, 9))， 其 中 “b” 代 表 




















j 于 








了 游戏 胜利 ( 见 彩 插 


示 每 次 动作 的 选择 。 白 


的 落 子 序列 示例 。"b” 代 表 “ 黑 方 玩 家 ",，“w” 代 表 “ 白 方 玩 家 ”。(b, 5) 








fed 





色 和 黑色 圆 




















是 两 个 玩 
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方 玩 家 ”，“w” 代 表 “ 白 方 玩家 ”。 如 图 15.1 最 后 一 个 棋盘 状态 所 示 ， 黑 方 玩家 有 三 个 棋子 连 成 
一 线 ， 这 表明 黑 方 说 得 了 比赛 。 回 忆 我 们 之 前 提 到 的 定义 ,这 个 简化 的 五 子 棋 (或 “三 子 棋 ”) 满 
足 组 合 博弈 问题 的 所 有 特征 : 游戏 包含 两 个 玩家 ; 游戏 不 包含 任何 随机 因素 ; 游戏 提供 完美 信息 ; 
玩家 以 回合 制 的 方式 执行 动作 ;游戏 在 有 限时 间 步 内 结束 。 

这 里 我 们 给 出 无 禁 手 五 子 棋 的 代码 示例 。 
义 游戏 为 Board 类 ， 并 将 游戏 规则 实现 成 一 些 函 数 。 我 们 之 前 用 简化 的 版 本 介绍 了 五 子 
棋 的 规则 ， 这 里 通过 给 变量 n in row 赋值 为 5 来 定义 一 个 标准 的 五 子 棋 。 







































































Fat 













































































class Board(object): 


# 定义 游戏 的 类 





























def |. init. (self, width, height, n in row): ... # 初始 化 函数 

def move to location(self, move): ... # 位 置 表示 转换 函数 

def location to move(self, location): ... # 位 置 表示 转换 函数 

def do_move(self, move): ... # 更 新 每 一 步 走 子 ， 并 交换 对 手 

def has_a_winner(self): ... # 判断 是 否 有 玩家 胜利 

def current_state(self): ... # 生成 网 络 的 状态 输入 

如 图 15.1 所 示 ， 棋 盘 上 的 每 个 走 子 位 置 都 用 一 个 数字 表示 ， 这 样 方便 在 蒙特 卡 罗 树 搜索 过 程 


















































中 建立 树 节 点 。 但 这 种 方式 不 便于 辨认 是 否 有 五 个 棋子 连 成 一 线 。 所 以 我 们 定义 了 坐标 和 数字 之 
间 的 转换 函数 ， 坐 标 用 来 判断 玩家 是 否 有 五 个 棋子 连 成 一 线 ， 数 字 用 来 在 树 搜 索 中 建立 树 节 点 。 






































def move_to_location(self, move): 
# 从 数字 转换 到 坐标 表示 
# 例如 3 x 3 d: 
#67 8 
#345 
#012 
# 数字 5 的 坐标 表示 为 (3,2) 
h = move // self.width 


w = move 





return [h, w] 
def location_to_move(self, location): 
# 从 坐标 转换 到 数字 表示 
if len(location) !- 2: 
return -1 
h = location[0] 


w = location[1] 
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move = h * self.width + w 
if move not in range(self.width * self.height): 
return -1 


return move 

















为 了 判断 是 否 有 玩家 获胜 ， 需 要 函数 来 判断 一 行 或 一 列 或 对 角 线 中 是 


线 。 函 数 has_a_winner() 如 下 所 示 : 








了 五 个 棋子 连 成 





| 























ral 





def has_a_winner (self): 
# 判断 是 否 有 玩家 获胜 ， 如 果 有 ， 返 回 是 哪个 玩家 
width = self.width 
height = self.height 





states = self.states 

n = self.n_in_row 

# 棋盘 上 所 有 棋子 的 位 置 

moved = list(set(range(width * height)) - set(self.availables)) 
# 当前 所 有 棋子 数量 不 足以 获胜 

if len(moved) < self.n in row + 2: 


return False, -1 


for m in moved: 
h, w = self.move to location(m) 
player - states[m] 
# 判断 是 否 有 水 平 线 


if (w in range(width - n + 1) and 





len(set(states.get(i, -1) for i in range(m, m + n))) == 1): 
return True, player 
# 判断 是 否 有 坚 线 
if (h in range(height - n + 1) and 
len(set(states.get(i, -1) for i in range(m, m+n * width, width))) == 
1): 
return True, player 
# 判断 是 否 有 和 斜 线 
if (w in range(width - n + 1) and h in range(height - n + 1) and 
len(set(states.get(i, -1) for i in range(m, m + n * (width + 1), width 
+ 1))) = 1): 
return True, player 


if (w in range(n - 1, width) and h in range(height - n + 1) and 
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len(set(states.get(i, -1) for i in range(m, m+n * (width - 1), width 
- 1))) = 1): 


return True, player 


return False, -1 
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蒙特 卡 罗 树 搜索 (MCTS) (Browne et al., 2012) 是 一 种 通过 动作 采样 ， 并 根据 结果 建立 搜索 
树 ， 寻 找 在 给 定 空间 中 最 优 决 策 的 方法 。 这 种 方法 在 组 合 博弈 和 规划 问题 方面 产生 了 革命 性 的 影 
响 ， 并 将 围棋 等 AI 算法 的 性 能 推 向 了 前 所 未 有 的 高 度 。 





























蒙特 卡 罗 树 搜索 主要 包括 两 部 分 树 结构 和 搜索 算法 。 树 是 一 种 数据 结构 (图 15.2)， 它 包 
合 由 边 连 接 的 节点 。 一 些 重要 的 概念 包括 根 节点 、 父 节点 与 子 节 点 、 叶 节点 等 。 树 结构 最 上 方 的 
节点 称 为 根 节点 ;一 个 节点 对 应 的 上 一 级 节点 称 为 其 父 节 点 ， 一 个 节点 对 应 的 下 一 级 节点 称 为 其 
子 节点 ; 没有 子 节点 的 节点 称 为 叶 节 点 。 通 常 ， 除 状态 和 动作 外 ， 搜 索 树 中 的 节点 还 存 有 被 访问 
次 数 的 统计 和 奖励 的 估 值 。 在 AlphaZero 算法 中 ， 节 点 还 包含 该 状态 对 应 的 动作 概率 分 布 。 
























































节点 4 的 子 节点 
图 15.2 树 结 构 示意 











rR 














综 上 ， 如 图 15.3 Prax, AlphaZero 算法 的 搜索 树 中 ， 每 个 节点 包含 以 下 信息 : 
。4: 到 达 该 节点 所 需 执行 的 上 一 个 动作 (用 以 索引 其 父 节 点 )。 
e N: 节点 被 访问 次 数 。 初 始 值 为 0， 表 示 该 节点 未 被 访问 过 。 
eW: 节点 的 奖励 值 之 和 ， 用 以 计算 平均 奖励 。 初 始 值 设 为 0。 
°Q: 节点 的 平均 奖励 值 ， 通 过 Yo 计算 得 到 ， 代 表 该 节点 的 值 函数 估计 。 初 始 值 设 为 0。 
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: P: 动作 A 的 选取 概率 。 这 个 值 由 神经 网 络 输 入 其 父 节 点 的 状态 得 到 ， 存 储 到 该 子 节点 便 


于 索引 和 计算 。 


Action= 5 












































状态 的 奖励 值 之 和 ，Q 表示 平均 奖 
未 被 访问 过 ， 所 有 的 初始 值 者 














在 继续 介绍 之 前 ,我们 先 强 调 一 个 关键 点 。 由 了 
棵 树 里 存在 两 个 玩家 的 视角 。 节 点 上 的 信息 要 么 从 黑 方 玩家 的 视 





























图 153 ”节点 包含 信息 示例 。 其 中 位 
玩家 ( "b" ) 执行 动作 5 并 型 


SUA BARAGEF, 1x5 



































Bi 73 0 





有 动作 可 表示 为 (5, 5)， 代 表 黑 方 
达 该 状态 。N = 0 表示 当前 节点 访问 次 数 为 0，W 表示 该 
励 ， 尸 表示 选择 动作 4 = 5 的 概率 。 由 于 当前 节点 还 
























































游戏 中 存在 两 个 玩家 ， 所 以 在 建立 搜索 树 时 ， 
进行 更 新 ， 要 么 从 和 白 方 玩家 


的 视角 进行 更 新 。 例 如 ,在 图 15.3 中 ， 此 节点 表示 的 棋盘 状态 只 有 一 个 黑 方 的 棋子 ， 所 以 此 时 应 
该 轮 到 白 方 玩家 执行 下 一 步 。 但 是 ， 需 要 注意 的 是 ， 

















ZO 的 角度 来 存储 的 。 由 于 该 节点 是 父 节点 在 扩展 其 子 节点 的 过 程 中 新 产生 的 ， 
A. N, W, Q, P 都 是 由 黑 方 玩家 初始 化 的 ， 并 用 于 黑 方 视角 下 的 后 续 更 新 和 使 用 。 所 以 ， 只 有 
黑 方 玩家 选择 动作 A = 5 才 到 达 该 节点 , 同时 初始 化 当前 信息 为 N = 0. W = 0. 









































这 个 节点 上 的 信息 是 从 其 父 节 点 《〈 即 黑 方 玩 


















































对 此 该 节点 上 的 

















对 每 个 节点 的 视角 有 一 个 清晰 的 理解 是 非常 重要 的 

















时 ， 不 易 理解 整个 更 新 过 程 。 














值 函数 Q@r(s,a)。 整 个 过 程 可 以 描述 为 ， 
每 个 动作 的 奖励 估计 逐渐 精确 ， 从 而 在 





































































































Q=0. P=0. 


， 和 否则 在 随后 树 搜索 的 过 程 中 执行 backup 步 








建立 搜索 树 后 ， 蒙 特 卡 罗 树 搜索 通过 启发 式 的 方法 探索 决策 空间 ， 











H 
x 























从 根 节点 开始 一 直 探 索 到 叶 节 点 ， 多 次 





的 动作 价值 函数 可 以 表示 为 (Couetoux et al., 2011): 


T—1 











j 以 估计 根 节点 的 动作 价 











E E 该 过 程 使 得 














索 树 中 找到 最 优 动作 。 不 带 折扣 因子 (Discount Factor) 


Q"(s,a) = E, | >》 P(Si411Sn, An) R(Snai|Ss, An)|So = 5, Ao = a, An — m(S&) |. — (15.1) 





h=0 
































态 时 获得 的 期 望 奖 励 。 


















































《Backup)， 所 有 这 些 步 骤 都 是 在 搜索 树 中 执行 的 ， 真 正 的 棋盘 上 没有 沙子 。 
。 选择 : 根据 茶 个 策略 ， 从 根 节 点 开始 选择 动作 ， 直 到 到 达 茶 个 时 节点 。 
。 扩 展 : 在 当前 叶 节点 之 后 添加 子 节 点 。 






























































其 中 Q™(s,a) 表示 动作 价值 函数 ， 即 在 状态 s 执行 动作 a 并 依 策略 r 选择 动作 ， 直 到 终止 状 














通常 ， 树 搜索 方法 有 四 个 步 又: 选择 (Select), F (Expand), H (Simulate), [|W 
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。 模拟 : 从 当前 节点 开始 ， 通 过 某 种 策略 〈 如 随机 策略 》 模拟 下 棋 直 到 游戏 结束 ， 得 到 结果 ; 
胜 、 负 或 平局 。 根 据 结果 获得 奖励 ， 通 常 +1 代表 胜 ， 一 1 代表 负 ，0 代表 平局 。 
。 回溯 : 回溯 更 新 模拟 得 到 的 结果 ， 依 次 回访 本 轮 树 搜索 中 经 过 的 节点 ， 并 更 新 每 个 节点 上 
的 信息 。 
最 常用 的 树 搜 索 算法 是 UCT (Upper Confidence Bound in Tree， 树 置信 上 界 ) 算法 (Kocsis 
et al., 2006)， 它 很 好 地 解决 了 树 搜索 过 程 中 探索 与 利用 (Exploration versus Exploitation〉 之 间 的 
平衡 。UCT 算法 是 UCB (Upper Confidence Bound， 置 信 上 界 ) 算法 (Auer et al., 2002) 在 树 结构 
的 扩展 。UCB 算法 ( 详 见 2.2.2 310. 是 解决 多 辟 赌 博 机 (Multi-Armed Bandit) 问题 的 经 典 算法 。 
在 多 臂 赌 博 机 问题 中 ， 智 能 体 需 要 在 每 个 时 刻 选择 一 个 赌博 机 并 得 到 对 应 奖励 ， 其 目标 为 最 大 化 
HEK. UCB 算法 根据 以 下 策略 在 t 时刻 选择 动作 : 

























































































































































































I 
A, = arg max 区 +c Ss 3 (15.2) 





其 中 Qla) 是 动作 值 估计 ， 该 项 增加 了 优势 动作 被 选 到 的 可 能 性 ， 即 估 值 越 大 ， 动 作 越 倾向 
被 选取 《〈 即 利用 ，Exploitation ) 。 后 一 项 平方 根 式 中 M (a) 表示 动作 a 在 前 上 次 时 间 步 内 被 选中 
的 次 数 ， 该 项 增加 了 动作 的 探索 度 ， 即 动作 被 选中 的 次 数 越 少 ， 该 动作 越 倾 向 被 选取 〈 即 探索 ， 
Exploration). c 是 一 个 正 的 实数 ， 用 来 调节 探索 与 利用 之 间 的 权重 。UCB 算法 还 有 一 系列 变 体 ， 
如 UCB1, UCB1-NORMAL, UCB1-TUNED 和 UCB2 等 (Auer et al., 2002). 

UCT 算法 是 UCB1 算法 在 树 结 构 中 的 实现 ， 该 算法 选择 搜索 树 中 最 大 UCT 值 对 应 的 动作 ， 


UCT 值 定义 如 下 : 
UCT =X; FORES (15.3) 
j 


这 里 ，n 是 当前 节点 的 访问 次 数 ，nj 是 其 子 节 点 了 NUKE, Cp > 0 是 控制 探索 的 权重 
参数 ， 可 以 根据 具体 问题 具体 设置 。 平 均 奖 励 项 X) 鼓励 利用 高 奖励 对 应 的 动作 ， 而 平方 根 项 
yn 鼓励 探索 访问 次 数 少 的 动作 。 

UCT 算法 解决 了 树 搜索 中 每 个 状态 下 对 应 动作 的 探索 与 利用 的 平衡 ， 并 颠覆 了 许多 大 规模 
的 强化 学 习 问 题 ， 例 如 六 连 棋 (Hex)、 围 棋 (Go) 和 雅 达 利 游戏 (Atari) 等 。Levente Kocsis 和 
Csaba SzepesVari (Kocsis et al., 2006) 证 明了 : 考虑 一 个 有 限 状 态 马 尔 可 夫 决 策 过 程 (Finite-Horizon 
MDP)， 其 中 奖励 在 [0, 1] 之 间 ， 状 态 数 为 D， 每 个 状态 的 动作 数 为 。 考 虑 UCT SHE, & UCT 
的 根 号 项 乘 以 D， 那 么 期 望 奖励 Xn 的 估计 偏差 与 O(22 ) 同 阶 。 此 外 ， 随 着 搜索 次 数 的 增加 ， 
根 节点 估计 错误 的 概率 以 多 项 式 速 率 收敛 到 零 。 这 表明 ， 随 着 搜索 次 数 的 增加 ，UCT 算法 能 够 保 
证 树 搜 索 收敛 到 最 优 解 。 

AlphaZero 算法 舍弃 了 模拟 步 又， 直接 用 深度 神经 网 络 预测 结果 。 因 此 ，AlphaZero 算法 包含 
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三 个 关键 步 又， 如 图 15.4 所 示 。 
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先 从 根 节 点 选择 动作 
























































更 新 节点 信息 











选择 : 根据 某 个 策 | 











民 节 点 开始 选择 动作 ， 
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图 154 AlphaZero 中 的 蒙特 卡 罗 树 搜索 。 在 每 次 真正 落 子 之 前 ， 


树 搜索 过 程 都 会 重复 多 次 。 它 首 























扩展 和 评估 : FEE 


接 通过 策略 网 络 和 
BE ED 














节点 之 后 添加 子 节点 。 
串 得 到 。 为 了 节约 资源 , 38 
Wort a 是 : 否 需 要 扩展 。 我 们 的 实现 省 略 了 这 
都 进行 扩展 和 评估 。 



































到 到 达 叶 节点 ， 然 后 扩展 叶 节 点 并 对 其 估 值 ， 最 后 执行 回溯 步骤 











直到 到 达 某 个 叶 节 点 。 
同时 每 个 动作 的 选取 概率 和 状态 值 的 估计 直 


















































常 在 不 损失 算法 效力 的 前 提 下 , 会 


这 个 阔 值 ， 每 次 到 达 叶 节点 





BA: 扩展 和 评 佑 完成 之 后 ， 回 调 更 新 结果 ， 依 次 回访 本 轮 树 搜索 中 经 过 的 节点 ， 并 更 新 


每 个 节点 上 的 信息 。 
由 神经 网 络 预测 得 型 
在 选择 步骤 : 






































衡 探索 和 利用 的 权重 ， 在 AlphaZero 算法 中 该 值 设 为 5. 


it 





开始 时 可 能 不 准确 











在 扩展 和 评估 步骤 中 , 策 
当前 状态 s 的 估 值 wsp(s,a) / 
4 用 于 在 回溯 步骤 中 计算 WwW, H 
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如 果 叶 节点 不 是 游戏 的 终止 状态 ， 那 么 游戏 无 法 返回 胜 负 结果 ， 转 而 
点 已 经 到 达 游 戏 的 终止 状态 ， 那 么 结果 直接 由 游戏 给 

， 动 作 由 公式 a = argmax,(Q(s,a) 4- U(s,a)) 4 
| 高 奖励 值 对 应 的 动作 ，U(s,a) = eps P (5,2) eee”) 鼓励 探索 访问 次 数 较 少 的 动作 ，cpu F 















































给 出 。 其 中 Q(s,a) = © 鼓励 利 














略 网 络 输出 当前 状态 下 每 个 动作 被 选择 的 概率 pls, a), 价值 网 络 得 出 
JFZ select HIHIH U (s, a) FEP U (s, a) = ea P(s, a) VeRO) 。 
ud a) = 








14-N(s,a) 


W(s,a) 十 v。 神 经 网 络 输出 的 动作 概率 和 状态 值 估 
会 逐渐 变 准 。 
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在 回 淘 步 骤 中 ， 每 个 节点 上 的 信息 被 依次 更 新 ， 其 中 N(s,a) = N(s,a) + 1,W(s,a) = 
_ W(s,a) 

W(s,a) +0, Q(s,a) = yi» 

部 分 核心 代码 如 下 : 


蒙特 卡 罗 树 搜索 过 程 定 义 为 类 MCTS， 它 包含 整个 树 结构 和 树 搜索 函数 playoutO: 














class MCTS(object): 
# 蒙特 卡 罗 树 搜索 类 
def__init__(self, policy. value fn,action fc,evaluation fc, is_selfplay,c_puct, 
n playout): ... # 初始 化 函数 
def _playout(self, state): ... # 树 搜索 过 程 











树 中 的 节点 定义 为 类 TreeNode， 其 中 包括 前 述 的 三 个 关键 步 又: 选择 ， 扩 展 和 评估 ， 回 济 。 








class TreeNode(object): 





# 树 节点 类 

# 每 个 节点 保存 值 估 计 ， 动 作 选 择 概率 等 相关 参数 

def | init. (self, parent, prior p): ... # 初始 化 函数 

def select(self, c puct): ... # 选择 动作 

def expand(self, action priors, add noise): ...4 扩展 节点 并 评估 当前 状态 和 每 个 动作 
def update(self, move): ... & 回溯 更 新 节点 








函数 select 对 应 选择 步 又， 





def select(self, c_puct): 
# 选择 最 大 UCT 值 对 应 的 动作 ， 返 回 动 作 和 下 一 个 节点 


return max(self._children.items(), 





key-lambda act node: act node[1].get. value(c. puct)) 








函数 expand O WM RATE. ALLE SEA S ESSERI Y AURI E ER, EAL 
探索 : 





def expand(self, action_priors, add_noise): 
# 扩展 新 节点 
# action priors 是 策略 网 络 输出 的 动作 及 其 对 应 的 概率 值 


if add_noise: 














action priors = list(action priors) 
length - len(action priors) 


x 


dirichlet noise = np.random.dirichlet(0.3 * np.ones(length)) 
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for i in range(length): 
if action_priors[i][0] not in self._children: 
self._children[action_priors[i][0]] = TreeNode(self, 
0.75 * action_priors[i][1] + 0.25 * dirichlet_noise[i]) 
else: 
for action, prob in action_priors: 
if action not in self._children: 


self._children[action] = TreeNode(self, prob) 





函数 update_recursive() 对 应 回溯 步骤 ; 





def update_recursive(self, leaf_value): 
# 递归 更 新 所 有 节点 
# 若 该 节点 不 是 根 节点 ， 则 递归 更 新 
if self._parent: 
# 通过 传递 取 反 后 的 值 来 改变 玩家 的 视角 
self. parent.update recursive(-leaf value) 


self.update(leaf value) 


def update(self, leaf value): 
# 更 新 节点 信息 
self._n_visits += 1 
# 更 新 访问 次 数 
self._Q += 1.0 * (leaf value - self._Q) / self. n visits 
# 更 新 值 估 计 : (v-0)/Q«D«Q = (v-Q+(mt+1)*Q)/(nt1)=(vtn*Q)/ (n1) 























蒙特 卡 罗 树 搜索 类 MCTS 调用 树 搜索 函数 _playout 0) 依次 执行 三 个 步骤 : 选择 ， 扩 展 和 评 
te, WI. 








def _playout(self, state): 
# 执行 一 次 树 搜索 过 程 
node = self._root 
# 选择 
while(1): 
if node.is_leafQ: 
break 
action, node = node.select(self._c_puct) 


state.do_move(action) 


$ 扩展 和 评估 
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action probs, leaf value - 
self. policy value fn(state,self. action fc,self. evaluation fc) 
end, winner - state.game end() 
if not end: 
node.expand(action probs,add noise-self. is selfplay) 
else: 
if winner == -1: # draw 
leaf value = 0.0 
else: 
leaf value = C 
1.0 if winner == state.get current player() else -1.0 
) 
* 回溯 


node.update recursive(-leaf value) 





15.4 AlphaZero: 棋 类 游戏 的 通用 算 ; 

一 般 来 说 ，AlphaZero 算法 适用 于 各 种 组 合 博弈 游戏 ， 如 围棋 、 国 际 象棋 、 日 本 将 棋 等 。 这 
E, 我 们 以 15.2 节 中 提 到 的 无 禁 手 五 子 棋 作为 例子 ,介绍 AlphaZero 算法 的 细节 。 因 为 游戏 本 身 
不 是 重点 ， 五 子 棋 这 样 一 个 规则 简单 的 回合 制 游 戏 非常 适合 作为 例子 。 进 一 步 ， 我 们 简化 棋盘 大 
小 为 3 x 3， 如 前 所 述 ， 三 个 棋子 连 成 一 线 表 示 获 胜 。 另 外 ， 由 于 AlphaZero 算法 是 AlphaGo Zero 
算法 的 加 强 版 ， 这 两 种 算法 非常 相似 。 我 们 的 实现 同时 参考 了 这 两 种 算法 。 

为 了 让 读者 更 好 理解 该 算法 ， 本 节 将 演示 AlphaZero 算法 的 详细 流程 。 整 个 算法 可 分 为 两 部 
4: COD 采用 蒙特 卡 罗 树 搜索 的 自 博 弈 强化 方法 收集 数据 ; (20 利用 深度 神经 网 络 拟 合 数据 并 用 
于 蒙特 卡 罗 树 搜索 中 。 整 个 过 程 如 图 15.5 所 示 。 
首先 ， 我 们 演示 蒙特 卡 罗 树 搜索 收集 数据 。 为 了 用 相对 较 短 的 篇 幅 演示 树 搜 索 过 程 直到 游戏 
的 终止 状态 ， 我 们 假定 游戏 从 图 15.6 所 示 的 状态 开始 (通常 游戏 是 从 一 个 空 棋盘 开始 的 )。 此 时 ， 
轮 到 白 方 玩家 执行 动作 。 

我 们 从 这 个 状态 开始 构建 树 结构 ， 依 次 执行 前 述 三 个 树 搜索 步骤 : 选择 ， 扩 展 和 评估 ， 回 漳 。 
此 时 树 中 只 有 一 个 节点 ， 由 于 它 在 树 的 顶部 ， 所 以 是 根 节 点 ， 又 因为 它 没 有 子 节点 ， 所 以 它 也 是 
叶 节 点 。 这 意味 着 我 们 已 经 到 达 了 一 个 叶 节 点 ， 相 当 于 已 经 完成 了 选择 步 又。 因此， 接 下 来 执行 
第 二 个 步 又: 扩展 和 评估 。 图 15.7 展示 了 节点 扩展 的 过 程 ， 该 节点 的 所 有 子 节点 被 展开 ， 同 时 策 
咯 网 络 以 该 节点 状态 作为 输入 ， 给 出 了 每 个 动作 被 选择 的 概率 。 

最 后 一 步 是 回溯 。 由 于 当前 节点 是 根 节点 ， 我 们 不 需要 回溯 W AQ CAF ABE Je 16 
应 该 到 达 该 节点 )， 只 需 更 新 访问 次 数 W。 将 NW = 0 更 新 为 N = 1， 本 次 树 搜索 过 程 完成 。 
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神经 网 络 









H 
数据 


图 15.5 ”算法 流程 。 在 AlphaZero 算法 中 ,蒙特 卡 罗 树 搜索 、 数 据 及 神经 网 络 形成 了 一 个 循环 。 蒙 
特 卡 罗 树 搜索 结合 神经 网 络 用 于 生成 数据 ， 生 成 的 数据 用 于 提升 网 络 预测 精度 。 网 络 预 
测 越 精确 ， 蒙 特 卡 罗 树 搜索 生成 的 数据 质量 越 高 ;数据 质量 越 高 ， 训 练 的 网 络 预测 越 精 
确 ; 整个 过 程 形成 良性 循环 





训练 























































































































图 15.6 棋盘 状态 。 棋 盘 大 小 为 3 x 3。 在 该 状态 下 ， 轮 到 白 方 玩家 执行 动作 




















每 次 重新 执行 树 搜索 ， 我 们 都 将 从 根 节点 开始 。 如 图 15.8 所 示 ， 第 二 次 树 搜索 过 程 也 将 
从 根 节 点 开始 。 这 一 次 ， 根 节点 下 存在 子 节 点 ， 这 意味 该 节点 不 是 叶 节 点 。 动 作 由 公式 a = 
arg max,(Q(s,a) + U(s,a)), Q(s,a) = v, U(s,a) = CquctP(8, a) MFR 给 出 。 这 里 白 方 玩家 
选择 动作 A = 2(w,2)， 并 到 达 新 节点 。 这 个 新 节点 为 叶 节 点 ， 且 此 时 ， 轮 到 黑 方 玩家 选择 动作 。 
我 们 对 这 个 叶 节 点 进行 扩展 和 评估 。 与 第 一 次 相同 : 所 有 可 行 的 动作 都 被 扩展 ， 每 个 动作 的 
概率 由 策略 网 络 给 出 。 
现在 轮 到 回溯 操作 了 。 此 时 树 里 有 两 个 节点 , 我 们 首先 更 新 当前 节点 , 然后 更 新 前 一 个 节点 。 
这 两 个 节点 的 更 新 遵循 相同 的 方式 : N(s,a) = N(s,a) + 1,W(s,a) = W(s,a) + v(s),Q(s,a) = 
IL 值得 注意 的 是 ， 树 中 有 两 个 视角 : 黑 方 视角 和 白 方 视角 。 我 们 需要 注意 更 新 的 视角 ， 并 
且 总 是 以 当前 玩家 的 视角 更 新 值 。 例 如 ， 在 图 15.10 中 ,价值 网 络 的 估 值 v(s) = 一 0.1， 这 是 从 黑 
方 玩家 的 角度 来 看 的 。 当 更 新 属于 白 方 玩家 的 信息 时 需要 取 反 ， 即 v(s) = 一 0.1。 所 以 ， 我 们 得 
4] N=1,W =0.1,Q=0.1. 
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白 方 玩家 回合 





黑 方 玩家 回 










n(a|s) v(s) 
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-0.3 
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15.7” 根 节点 处 的 扩展 和 评估 。 所 有 可 行动 作 的 节点 都 被 扩展 ， 神 经 网 络 给 出 相应 的 概率 值 


n(a|s) 




































白 方 玩家 回合 





























黑 方 
玩家 
a 
m 
a = argmaxq(Q(s, a) + U(s, a)) 
"mite LENE) 
探索 U(s, a) = C puct P(s, a) 1+N(s,a) 
w 
利用 : Q(s,a) = — 
A158 根 节 点 处 的 选择 。 白 方 玩 家 选择 4 = 2 (w,2) 并 到 达 叶 节 点 。 此 时 轮 到 黑 方 玩家 选择 动 
作 





然后 我 们 返回 到 它 的 父 节 点 。 和 之 前 一 样 ， 由 于 当前 状态 的 节点 是 根 节 点 ,我们 不 需要 回 济 
更 新 W 和 Q@， 只 需要 更 新 访问 次 数 W。 所 以 ， 令 N = 2， 第 二 次 树 搜 索 过 程 完成 。 如 图 15.11 
所 示 。 
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白 方 玩家 回合 


黑 方 玩家 回合 





n(a|s) v(s) 


0.1 l 
o | o lo15| -0.1 
o|o] 






































N(s,a) = N(s,a) +1 








v(s) W(s,a) = W(s,a) + v(s’) 
Q(s,a) = ae 
-0.1 转换 视角 
Action= 9} Vwhite = —Vblack 























图 15.10 新 节点 处 的 回溯 。 当 前 节点 的 信息 被 更 新 ， 
0.1, Q = 0.1 





GEM. N-LW- 


























第 三 次 树 搜 索 过 程 也 从 根 节 点 开始 。 根 据 公 式 a = argmaxa(Q(s, a) + U(s, a)) 和 当前 树 : 
的 信息 ， 白 方 玩家 选择 动作 2 (w,2)， 黑 方 玩家 选择 动作 9 (5,9)。 如 图 15.12 所 示 ， 经 过 选择 步 又 
后 ， 游 戏 到 达 了 终止 状态 。 这 次 对 于 扩展 和 评估 步骤 ， 节 点 将 不 会 被 扩展 ， 同 时 可 以 直接 从 游戏 
中 获取 价值 v。 因 此 ， 价 值 网 络 不 会 用 来 估计 状态 价值 ， 策 略 网 络 也 不 会 输出 动作 概率 。 
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图 15.11， 根 节点 处 的 回溯 。 S3 








Action= 1 

N=2 

白 方 玩家 回合 | w=? 
P=0 


Action= 2 加 
黑 方 N=1 
玩家 W = 0.1 
TA Q =0.1 


玩家 


。 注意 : 奖励 总 是 从 当前 玩家 视角 获得 的 
































E1512 终 节 点 处 的 扩展 和 评估 。 由 于 游戏 在 该 节点 结束 ， 因 此 不 会 扩展 任何 节点 ， 并 且 可 以 
直接 从 游戏 中 获得 奖励 。 所 以 ， 这 里 不 会 使 用 策略 网 络 和 价值 网 络 

























































































接 下 来 是 回溯 ， 且 轨迹 上 有 三 个 节点 。 如 前 所 述 ， 节 点 从 叶 节 点 递归 更 新 直到 根 节点 ， 其 中 
N(s,a) = N(s,a)+1,W(s,a) = W(s,a) +0(s), Q(s,a) = — 2, 此 外 ， 还 应 该 切换 每 个 节点 的 
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视角 ， 这 意味 着 vwpite = 一 vblack。 在 这 个 游戏 中 ， 黑 方 玩家 选择 动作 9 (5,9) 并 到 达 一 个 新 节点 。 
现在 本 该 轮 到 白 方 玩 家 选择 动作 ， 但 遗憾 的 是 游戏 在 此 结束 了 ， 白 方 玩家 输 掉 了 游戏 。 所 以 奖励 
值 reward = —1 是 从 白 方 玩家 的 视角 来 看 的 ， 也 就 是 说 vwpite = 一 1。 当 我 们 更 新 这 个 节点 上 的 信 
息 时 ， 如 前 所 述 ， 这 些 信息 是 被 黑 方 玩家 用 来 选择 动作 A = 9 并 到 达 这 个 节点 ， 所 以 这 个 节点 的 
值 应 该 是 vela. = 一 vwnite — 1， 其 他 信息 同 理 ， 有 N = 1, W = 1,Q@ = 1。 剩 余 两 个 节点 的 信息 也 
以 同样 的 方式 更 新 。 

在 完成 回 漳 步骤 之 后 ， 树 结构 如 图 15.13 所 示 。 根 节点 已 被 访问 三 次 ， 并 且 每 个 被 访问 过 的 























































































































节点 信息 都 已 更 新 。 











N(s,a) = N(s,a) +1 
转换 视角 W(s,a) = W(s,a) + v(s’) 
Uwhite = 一 7black Q(s,a) = ee 











图 15.13 回溯 步骤 之 后 的 树 结构 。 在 第 三 次 树 搜 索 过 程 中 ， 回 溯 步 又 递归 地 更 新 三 个 被 访问 节 
点 的 信 ^o J 两 个 玩家 在 [sj 树 结构 中 ， Uwhite = —Ublack 5 所 以 需 注意 从 正确 的 
视角 更 新 信息 

























































































我 们 已 经 演示 了 三 次 蒙特 卡 罗 树 搜索 的 迭代 过 程 。 经 过 400 次 搜索 后 〈 在 AlphaGo Zero 算 
法 中 ， 搜 索 次 数 是 1600; 在 AlphaZero 算法 中 ， 搜 索 次 数 是 800， 如 图 15.14 所 示 )， 树 结构 变 得 
更 大 ， 且 估 值 更 加 精确 。 
经 过 树 搜索 过 程 之 后 ， 可 以 在 真正 的 棋盘 上 走 子 了 。 动 作 的 选取 通过 计算 每 个 动作 的 访问 
次 数 并 归 一 化 为 概率 进行 选择 ， 而 不 是 直接 通过 策略 网 络 输出 动作 概率 ，r(als) = REO = 
Mee ST + 0 是 温度 参数 ，b e 4 表示 状态 s 下 的 可 行动 作 。 这 里 选择 的 动作 是 9 
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(w,9), WB 15.15 Pras. 


Action- 1 
N = 401 


白 方 玩家 回合 dee 







AR IT 
玩家 
A 
口 




















由 于 第 一 次 搜索 是 从 扩展 和 评估 步骤 开始 的 ， 并 没有 
次 数 之 和 为 400， 根 节点 的 访问 次 数 为 401。 这 个 细节 并 


























15.14 Zt 400 次 搜索 的 树 结构 。 
子 节点 寻 此 其 子 节点 的 访问 


EE Al) 算法 思想 Li» 





欧 























白 方 玩家 回合 





a 2 3 6 7 8 9 
40 10 3 10 15 320 
WN Se Se Ss OS 
400 400 400 400 400 400 


N(s, 1/T 
n(als) = zeige. 温度 参数 





图 15.15 在 真正 的 棋盘 上 走 子 。 经 过 400 次 搜索 后 ， 根 据 r(als) = ULL. 选择 动作 。 这 里 


白 方 玩 家 选择 动作 9 (w, 9) 
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温度 参数 用 来 控制 探索 度 。 若 r = 1， 动 作 的 选择 概率 和 访问 次 数 成 正比 ， 则 这 种 方式 探索 
度 高 ， 可 以 确保 数据 收集 的 多 样 性 。 若 r 0， 则 探索 度 低 ， 此 时 倾向 于 选择 访问 次 数 最 大 的 动 
Ye. TE AlphaZero 和 AlphaGo Zero 算法 中 ， 当 执行 自 博弈 过 程 收集 数据 时 ， 前 30 步 〈 在 我 们 的 
实现 中 为 12 步 ) 的 温度 参数 设 为 + = 1， 其 余部 分 设置 为 一 0。 当 与 真正 对 手下 棋 时 ， 温 度 参 
数 始终 设置 为 一 0， 即 每 次 都 选择 最 优 动 作 。 

至 此 ， 位置 9 处 已 经 放置 了 白 方 棋子 ， 因 此 树 中 的 根 节 点 将 被 更 改 。 如 图 15.16 所 示 ， 蒙 特 
卡 罗 树 搜索 将 从 新 的 根 节 点 继续 。 其 他 兄弟 节点 及 其 父 节 点 将 被 剪 枝 丢 弃 以 节省 内 存 。 



















































































































































































白 方 玩家 回合 
(w, 9) 
Action = 2 Action= 3 
RA N = 40 N — 10 
玩家 W = -35 W = 一 9 
A |Q=-0875 | o = —09 
A P=04 P=0.1 
mm mn bbl 
图 15.16 新 的 根 节点 。 新 根 节 点 下 的 节点 将 被 保留 ， 其 他 节点 将 被 丢弃 



































整个 过 程 一 直 重复 下 去 ， 直 到 一 局 游戏 结束 。 我 们 得 到 数据 和 结果 如 图 15.17 所 示 。 
每 个 动作 的 概率 计算 方式 为 ，r(als) = SSO 二 1。 需要 注意 ， 这 里 的 概率 通过 访问 
次 数 计算 ， 这 是 蒙特 卡 罗 树 搜索 自 博弈 过 程 和 神经 网 络 训练 相 结合 的 关键 点 。 由 于 该 局 游戏 的 结 
果 是 平局 ， 这 里 所 有 数据 的 标签 都 是 0〈 图 15.18). 

现在 我 们 已 经 有 了 蒙特 卡 罗 树 搜索 生成 的 数据 ， 下 一 步 就 是 利用 深度 神经 网 络 进行 训练 。 在 
训练 过 程 中 ， 首 先 将 数据 转换 成 堆 秋 的 特征 层 。 每 个 特征 层 只 包含 0-1 值 用 以 表示 玩家 的 沙子， 
其 中 一 组 特征 层 表示 当前 玩家 的 落 子 ， 另 一 组 特征 层 表示 对 手 的 落 子 。 这 些 特征 层 按照 历史 动作 
FMF HER. YG, 我 们 用 与 AlphaGo Zero 算法 相同 的 数据 增强 方法 对 数据 进行 扩展 : 由 于 围 
棋 和 五 子 棋 的 规则 都 不 受 旋转 和 镜像 翻转 的 影响 ， 因 此 在 训练 之 前 ， 我 们 将 数据 做 旋转 和 镜像 翻 
转 增强 。 在 蒙特 卡 罗 树 搜索 过 程 中 ， 棋 盘 状态 被 随机 旋转 或 镜像 翻转 ， 然 后 再 用 神经 网 络 进行 巴 
测 ， 从 而 可 以 在 一 定 程度 上 减 小 方差 。 然 而 在 AlphaZero 算法 中 ， 由 于 某 些 游戏 规则 不 具有 旋转 
和 镜像 翻转 不 变性 ， 因 此 AlphaZero 没有 使 用 该 技巧 。 言 归 正 传 ， 随 着 收集 的 数据 越 来 越 多 ， 不 
断 训练 的 网 络 会 得 到 更 加 精确 的 估计 。 
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平局 ! 


Reward=0 





























图 15.17 棋谱 数据 。 该 局 游戏 的 所 有 状态 都 将 被 保存 ， 并 赋予 动作 概率 7(a|s) 和 状态 值 v(s) 





























400 400 400 400 400 400 400 400 400 


s-[*[8[*] (als) 2 (1, nQ1s), nGls), n(4ls), n6515), mls), C715), Els), r(9ls)) reward = 0 : 
D: «| 1 

"B A 1 

全 :| :| 0 40 10 0 0 5 10 15 320 














[(S1, T(a|S1) , reward = 0), ......, (S49, r(a|549) , reward = 0)] 











欧 

















15.18” 带 标签 的 数据 。 动 作 的 概率 根据 (als) = GOL. VERE, 标签 v(s) 来 自 游戏 的 结果 ， 
1 表示 胜利 ，-1 表示 失败 ，0 表示 平局 


























我 们 使 用 ResNet (He et al., 2016) 作为 网 络 结构 (图 15.19)， 这 和 AlphaGo Zero 算法 相同 。 
网 络 的 输入 是 前 述 构造 的 状态 特征 ， 输 出 是 动作 概率 和 状态 值 。 网 络 可 以 表示 为 (p,v) = fo(s)， 
数据 为 (s,7,7)， 其 中 p,7 为 列 向 量 。 损 失 函 数 ! E ME 3 ES 6 TA. TRAST RAM 
参数 的 L2 正则 化 组 成 。 有 具体 公式 为 1= (r-u)? —aT logp+e|la||?, H PBR c 调节 正则 化 权重 

此 外 ， 我们 介绍 一 些 关 于 模型 更 新 的 细节 。 在 AlphaGo Zero 算法 中 ， 新 模型 将 和 当前 的 最 优 
模型 对 打 400 局 ， 如 果 新 模型 胜率 超过 55%， 那 么 它 将 替换 掉 之 前 的 模型 成 为 当前 的 最 优 模 型 ， 
即 对 模型 有 一 个 评估 的 过 程 。 相 比 之 下 ， 在 AlphaZero 算法 的 版 本 中 ， 它 不 与 之 前 的 模型 进行 对 
打 ， 而 是 直接 不 断 更 新 模型 参数 ， 这 些 都 是 可 行 的 方法 。 我 们 的 版 本 和 AlphaGo Zero 的 方式 相 
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以 使 训练 过 程 更 加 稳定 。 此 外 ， 如 果 想 更 快 地 训练 模型 ， 可 以 使 
至 采用 原 论文 异步 树 搜索 的 方式 。 图 15.20 展示 了 并 行 的 训练 方式 ， 多 个 进程 同时 从 最 优 模型 ， 
源源 不 断 生 成 自 博弈 数据 ， 收 集 到 最 新 的 自 博 弈 数据 有 




















来 训练 神经 网 络 ， 最 新 训练 的 模型 和 最 优 





模型 进行 不 断 评估 (AlphaGo Zero 的 方式 )， 所 有 这 些 进 程 都 并 行 执行 。 











Ft AI 就 生成 了 。 
我 们 最 终 在 11 x 11 的 棋 
列 出 了 一 些 具体 参数 ,随后 我 们 在 15 x 15 的 棋 
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图 15.19 网 络 结构 。 结 构 与 AlphaGo Zero 算法 相同 。ResNet 作为 主干 ， 两 个 头 分 别 输出 概率 分 
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若 新 模型 胜率 超 


FC layer, 1 


v(s) 











多 进程 并 行 收集 数据 ， 甚 


























最 优 模型 








过 55%， 则 替换 
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新 网 络 模型 

















新 网 络 模型 
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1520 ”并 行 训练 框架 


Ve 





随 着 新 数据 源源 不 断 地 生成 ， 神 经 网 络 不 断 迭 代 训 练 ， 得 到 更 准确 的 估 值 ， 一 个 强大 的 五 子 



























































盘 上 通过 多 进程 并 行 的 方式 训练 了 无 禁 手 规则 的 五 子 棋 AL,， 表 15.1 


盘 上 同样 成 功 训 练 了 一 个 模型 ,这 表明 了 AlphaZero 
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AlphaZero 











算法 的 通用 性 和 稳定 性 。 




















参数 





15.1 ”参数 对 比 


AlphaGo Zero 


AlphaZero 





Cpuct 


5 


5 





MCTS times 


1600 


800 





residual blocks 


19/39 


19/39 





batch size 


2048 


4096 





learning rate 


annealed 


annealed 





optimizer 


SGD with momentum 


SGD with momentum 





Dirichlet noise 


0.03 


0.03 





weight of noise 


0.25 


0.25 





T = 1 for the first n moves 








30 





30 
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本 章 主 要 介绍 模拟 环境 
体 的 任务 ， 并 月 


臂 抓 取 物 








模拟 环境 中 机 器 


学 习 























Vk. TEASER AR 


进行 简单 的 讨论 。 




















深度 强化 学 习 算法 有 很 多 潜在 的 现实 世界 应 
尽管 深度 强化 学 习 算 法 
Gym 环境 等 ， 我 1 


os 


ik, bun 











尾 ， 我 们 也 对 机 器 人 学 习 应 用 


NA 











Lo 


机 器 人 学 习 的 一 个 上 手 项 
深度 强化 学 习 算 法 柔性 ActorCritic (Soft Actor-Critic, SAC) 


实验 部 分 展示 不 同 奖励 函数 的 效果 , 用 以 验证 辅助 密集 奖励 对 于 解决 类 似 机 器 人 抓 取 





ng 























目 ， 包 括 在 CoppeliaSim ! 
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、 模 拟 到 现实 的 迁移 和 其 他 机 器 人 学 习 项 目 











个 机 械 

去 解决 它 。 
EDS WY LE 
及 模拟 器 
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场景 ， 机 器 人 控制 是 其 











最 令 人 振奋 的 领域 



































xs 
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前 还 不 能 

















使 得 它 成 为 深度 强化 学 习 在 模拟 和 现实 





界 中 机 器 人 控制 的 巨大 潜力 也 吸引 了 许多 像 DeepMind 和 OpenAI 等 高 科技 公司 
或 。 近 来 ，OpenAI 7 
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以 ) 











绝 大 多 数 简 单 的 游戏 ， 像 之 前 介绍 的 OpenAI 
期 望 深度 强化 学 习 方 法 在 机 器 人 控制 领域 能 完全 替代 传统 控制 方 
反 向 运动 学 (Inverse Kinematics) z& tk 4 
PID) 控制 等 。 然 而 ， 深 度 强化 学 习 能 够 应 用 于 某 些 
其 是 对 于 高 度 复 杂 的 系统 或 者 灵活 操控 任务 (Akkaya 
在 绝 大 多 数 情况 下 ， 机 器 人 控制 的 动态 过 程 可 


上 -积分 -微分 (Proportional - Integral - Derivative, 


\ 体 情形 ， 作 为 与 传统 控制 相 








甫 相 成 的 方法 ， 














et al., 2019; Andrychowicz et al., 2018). 
马尔 可 夫 (Markov) 过 程 很 好 地 近似 ， 这 


中 的 一 个 理想 的 试验 场 。 另 外 ， 深 度 强化 学 习 对 于 现实 世 

































































究 使 朋 





然而 ， 




















et al., 2019) 是 有 
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RAAT 
甚至 通过 自动 域 随机 化 (Automatic Domain Randomization) 技术 来 解决 模 
拟 到 现实 的 迁移 〈Sim-to-Real Transfer) 问题 ， 从 而 用 
16.1 所 示 。 其 他 公司 也 开始 下 
直接 让 机 器 人 在 现实 世界 中 训练 (Korenkevych et al., 2019). 
于 将 强化 学 习 算 法 直接 应 用 于 现实 世界 中 
现 直 接 在 现实 世界 中 训练 强化 学 习 策略 来 解决 复杂 的 机 器 人 系统 控制 或 灵活 操 
困难 的 。 在 模拟 环境 中 训练 并 在 随后 将 策 


个 单 手 五 指 机 械 臂 解决 了 
有 比如 在 仓储 物流 中 的 货物 分 发 任务 上 使 月 


HIRE, EE 





了 采样 效率 低 和 安全 性 上 








IES SIPS, Bee 





Zu 


7L 











Rubik 魔方 ， 如 





的 问题 ， 人 们 发 


空 任务 (Akkaya 
利用 人 类 专家 




















16.1 机 器 人 模拟 




















的 示范 (Human Expert Demonstrations) 来 学 习 ， 都 是 更 有 潜力 满足 机 器 人 学 习 的 计算 改 


图 16.1 用 一 个 机 器 手 解 决 Rubik 魔方 的 场景 。 图 

















片 改 编 自 文献 (Akkaya et al., 2019) ( 见 彩 插 ) 


E 能 和 安 


全 要 求 的 方式 。 机 器 人 的 模拟 器 已 经 发 展 了 数 十 年 ， 包括 DART. CoppeliaSim (在 3.6.2 版 本 之 
前 叫 作 V-REP) (Rohmer et al., 2013)、MuJoCo、Gazebo 等 。 在 本 章 最 后 一 小 节 会 有 相关 讨论 。 为 





了 便于 人 们 使 用 深度 强化 学 习 控制 策略 和 其 他 数值 操作 ， 这 些 模拟 器 多 数 都 有 Python 对 
在 模拟 环境 中 学 习 至 少 在 两 个 方面 有 意义 。 第 一 ， 模 拟 环 境 可 以 月 
验 地 〈 包 括 但 不 限于 强化 学 习 领 域 )， 尤 其 是 大 规模 的 现实 世界 应 用 ， 比 如 机 器 人 学 习 伯 
































目 作 新 提出 算法 或 











应 版 本 。 


E 架 的 试 
FA. dE 


模拟 环境 中 学 习 可 以 作为 新 方法 在 应 用 到 现实 情景 前 的 验证 过 程 。 第 二 ， 对 于 通过 模拟 到 现实 迁 








移 的 方式 解决 现实 世界 问题 来 说 ,在 模拟 中 学 习 是 不 可 或 人 


A ET 











在 这 一 章 , 我 们 将 介绍 把 深度 强化 学 习 算法 应 / 

















务 的 过 程 ， 使 用 CoppeliaSim (V-REP) EET 2S RI B 








到 一 个 模拟 环境 中 简单 的 机 器 人 物体 抓 取 任 
^J Python 封装 : PyRep (James et al.,2019a). 我 


们 开源 了 这 个 项 目的 任务 描述 和 深度 强化 学 习 算 法 相关 代码 1， 便 于 读者 学 习 和 理解 。 





由 于 之 前 已 经 介绍 了 一 个 将 强化 学 习 应 月 
































日 于 大 规模 高 维度 连续 空间 的 应 | 








习 任 务 将 更 加 着 重 实践 中 强化 学 习 的 其 他 方面 

















的 模拟 环境 ， 如 何 设计 奖励 函数 来 辅助 强化 学 习 实 现 最 终 的 人 有 














习 更 好 的 理解 ， 不 仅 限于 训练 过 程 ， 更 在 于 如 何 设 计 学 习 环 境 。 





16.1. 机 器 人 模拟 


J, HEHINI 
1， 包括 如 何 构 建 一 个 能 通过 强化 学 习 实 现 特定 任务 
FE 务 目 标 等 ， 以 给 读者 提供 对 强化 学 


决 的 一 步 ， 可 以 减少 时 间 消 耗 和 物理 设 





[器 人 学 








我 们 第 一 步 要 做 的 是 设置 一 个 模拟 环境 ， 包括 : 一 个 机 械 臂 、 与 机 械 臂 交互 的 





个 物 块 。 这 


个 模拟 环境 应 当 符 合 现实 物理 动态 规律 。 然 而 ， 这 里 我 们 要 强调 一 点 ， 一 个 真实 的 模拟 不 意味 着 
在 这 个 模拟 环境 中 学 习 到 的 策略 就 可 以 直接 在 现实 世界 中 取得 好 的 表现 。 一 个 “真实 的 ”模拟 环 


























! 链 接见 读者 服务 
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境 可 以 通过 不 同 的 具体 形式 实现 ， 而 其 中 只 有 
说 ， 不 同 光照 条 件 可 以 在 物体 上 产生 不 同 的 阴影 效果 ， 而 这 些 可 能 看 起 来 都 很 “真实 ”， 但 是 只 
有 其 中 一 种 是 跟 现实 相同 的 ， 而 且 由 于 深度 神经 网 络 的 敏感 性 ， 这 些 外 观 上 的 细微 差异 可 能 导致 






















































































种 形式 可 以 与 实际 的 现实 世界 相 匹 配 。 举 例 来 






































现实 中 做 出 截然 不 同 的 动作 。 为 了 解决 这 类 模拟 到 现实 迁移 过 程 的 问题 ， 如 域 随机 化 (Domain 
Randomization)、 动 力学 随机 化 (Dynamics Randomization) 等 许多 方法 被 提出 和 应 用 ， 我 们 也 将 























在 本 章 进行 相关 讨论 。 





























现在 有 许多 机 器 人 的 模拟 器 ,包括 CoppeliaSim ( V-REP). MuJoCo, Unity 等 。 原版 CoppeliaSim 
CV-REPO 软件 使 用 C++ 和 Lua 语言 文 持 的 通用 接口 ， 而 只 有 部 分 函数 功能 可 以 通过 Python 实现 。 











然而 ， 对 于 应 用 深度 强化 学 习 而 言 ， 最 好 使 月 
CoppeliaSim (V-REP) 用 于 深度 机 器 人 学 习 。 石 


















































H Python 接口 。 幸 运 的 是 ， 我 们 有 PyRep 软件 包 来 将 


























配 它 的 软件 包 PyRep 来 调用 Python 接口 。 


我 们 将 在 本 节 展 示 设 置 


A 





























安装 CoppeliaSim 和 PyRep 


CoppeliaSim ( V-REP) «f 





E 本 项 目 


个 机 器 人 学 习 任 务 的 基本 过 程 。 





























中 ， 我 们 使 用 Coppeliasim (V-REP) 并 搭 




















服务 ) 上 的 一 个 PyRep 的 分 支 稳定 版 本 : 

















F 可 以 在 官网 ?下 载 到 ,而 在 本 书 的 写作 过 程 中 ,我 们 需要 CoppeliaSim 
CV-REP) 的 3.6.2 版 本 〈 可 以 在 网 站 3 上 找到 ) 来 跟 PyRep 兼容 。 它 可 以 直接 通过 解压 下 载 的 文件 
来 安装 。 注 意 高 于 CoppeliaSim (V-REP) 3.6.2 的 版 本 可 能 跟 这 个 项 目的 其 他 模块 不 兼容 。 

安装 完 CoppeliaSim (V-REP) 之 后 , 我 们 可 以 通 















































过 以 下 几 步 安装 我 们 仓库 网 站 〈 链 接见 读 

















git clone https://github.com/deep-reinforcement-learning-book/PyRep.git 


pip3 install -r requirements.txt 


python3 setup.py install --user 
# 注意 : 在 以 下 指令 中 需要 将 路 径 改 为 用 户 本 机 的 VREP 安装 位 置 
export VREP_ROOT=EDIT/ME/PATH/TO/V-REP/INSTALL/DIR 
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH: $VREP_ROOT 
export QT_QPA_PLATFORM_PLUGIN_PATH=$VREP_ROOT 


source-/.bashrc 





记得 通过 上 


Git 克隆 本 项 目 






































而 脚本 中 的 VREP_ROOT 更 改 V-REP 的 路 径 。 


本 章 的 深度 强化 学 习 算 法 应 用 于 机 器 人 学 习 任 务 项 目 可 以 通过 以 下 命令 下 载 : 

















2 链接 见 读者 服务 
3 链接 见 读 者 服务 
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git clone https://github.com/deep-reinforcement-learning-book/Chapter16-Robot-Learning 


-in-Simulation.git 











这 个 项 目 包 含 机 器 人 的 部 分 “机械 臂 ， 夹 具 ) 和 其 他 我 们 需要 的 物体 、 构 建 的 机 器 人 抓 取 任务 情 
景 、 用 来 训练 智能 体 控制 策略 的 深度 强化 学 习 算 法 等 。 本 项目 中 的 机 器 人 抓 取 任务 情景 见 图 16.2。 
我 们 将 在 以 下 几 小 节 中 展示 如 何 构建 这 个 包含 基本 组 成 部 分 的 场景 。 














16.2 CoppeliaSim (V-REP) 中 的 抓 取 


组 装机 器 人 


我 们 使 用 名 为 Rethink Sawyer 的 机 械 臂 和 一 个 
提供 了 多 种 机 械 臂 和 夹具 ， 可 以 用 来 组 装 和 构建 你 
一 个 夹具 安装 到 机 械 臂 ， 如 图 16.3 所 示 。 





( Grasping ) 任务 场景 ( 见 彩 插 ) 





BraxterGripper 终端 夹具 。 官 方 PyRep 软件 包 
想 要 的 任务 场景 。 我 们 这 里 提供 一 个 例子 ， 将 


在 我 们 的 Git 文件 下 ， 将 ./hands/BaxterGripper.ttm 和 ./arms/Sawyer.ttm 拖 入 在 Cop- 
peliaSim CV-REPO 中 打开 的 一 个 新 场景 。 我 们 选择 夹具 并 同时 按 Corl 加 鼠标 左 键 单 击 Sawyer 的 
终端 关节 〈 即 Sawyer_wrist_connector， 它 是 CoppeliaSim (V-REP) 中 的 一 个 力 传感器 ， 可 以 





用 于 连接 不 同 物体 )， 然 后 单 击 “ 组 装 ” 按 钮 ， 如 图 





















































16.4 所 示 。CoppeliaSim (V-REP) 提供 了 不 同 


种 类 的 连接 器 ， 这 里 的 力 传感器 只 是 其 中 一 种 ， 且 这 种 连接 器 在 关节 受到 的 真实 力 大 于 一 个 闪 值 
的 时 候 有 破碎 的 可 能 。 另 一 方面 , 我 们 不 应 该 在 这 里 用 “组 合 /合并 ”(group/merge) 选项 , 这 是 为 
了 能 够 独立 控制 夹具 和 机 械 臂 。 更 多 关于 如 何 连接 和 组 合 不 同 物体 的 细节 可 以 查阅 CoppeliaSim 








CV-REP) 的 网 站 。 在 我 们 完成 以 上 过 程 后 ， 所 构 如 
所 示 。 








场景 的 层级 (Scene hierarchy) 应 当 如 图 16.5 
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图 16.3 Sawyer HAE Aum ( 左 ) 和 组 装 的 夹具 BaxterGripper (4 ) ( Wü ) 





图 164 CoppeliaSim (V-REP) 中 的 “组 装 ”( assemble ) 按钮 


构建 学 习 环境 


16.2 展示 了 CoppeliaSim (V-REP) 中 一 个 构建 好 的 场景 ， 相 应 文件 为 ./scenes/sawyer-_ 
reacher_rl.ttt。 为 了 构建 这 个 最 终场 景 ， 我 们 需要 把 其 他 物体 添加 到 当前 只 包含 机 械 辟 和 夹 
县 的 场景 中 。 

首先 ， 我 们 通过 添加 (Add) -> 简单 形状 (Primitive shape) -> AS (Cuboid) 添加 一 个 
目标 物体 ， 调 整 它 成 为 我 们 想 要 的 尺寸 并 重 命 名 为 “目标 ”。 我 们 需要 双击 “目标 ”前 面 的 图 标 
并 选择 公共 (Common) -> 可 泻 染 的 《Renderable) 来 使 得 物体 对 视觉 传感器 可 见 。 
在 以 上 步骤 之 后 ， 我 们 需要 添加 一 个 可 以 给 我 们 提供 定制 场景 视野 的 视觉 传感器 。 这 个 视觉 
传感器 可 以 在 模拟 过 程 中 一 直 拍摄 视野 的 图 像 ， 如 果 我 们 使 用 基于 图 像 的 控制 ， 那 么 这 个 视觉 传 
感 器 是 必需 的 〈 如 果 不 是 基于 图 像 的 控制 ， 我 们 可 能 不 需要 它 )。 如 果 我 们 在 场景 中 启用 这 个 视 
觉 传感器 ， 我 们 可 以 在 模拟 的 每 一 步 返回 图 像 。 为 了 设置 这 样 的 场景 ， 单 击 添 加 CAdd) -> 视觉 
传感器 (Vision sensor) -> 视角 类 型 (perspective type) ， 然 后 右键 单 击 场景 ， 选 择 添 加 〈Add) 
-> 浮动 视野 (Floating view)。 这 时 先 单 击 我 们 刚刚 创建 的 视觉 传感器 ,然后 右键 单 击 打 开 的 浮动 
视野 ， 选 择 视图 (View) -> 关联 视图 和 已 选择 的 视觉 传感器 (associate view with selected vision 
sensor)。 随 后 ， 我 们 手动 设置 添加 的 视觉 传感器 的 位 置 和 旋转 角度 ， 得 到 如 图 16.6 所 示 的 场景 。 

ifi, 我 们 从 项 目 文件 夹 ./objects 中 拖 入 物体 文件 table.ttt。 通 过 单 击 物体 (Object) / 
物品 移动 Citem shift) 按键 ， 我 们 手动 设置 这 个 带 夹 具 机 械 臂 的 位 置 和 目标 长 方 体 的 位 置 ， 使 得 
它们 位 于 桌子 上 方 ， 如 图 16.7 所 示 。 
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Scene hierarchy 
@ sawyer_reacher_tl (scene 4) & W 
Defa amera 
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® diningTable visible 
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® Sawyer linkÜ. visible 
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i 
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i 
i 
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| 
| 
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| 
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| 
- joint& | 
日 Sawyer_link5 | 
A Sawyer link5 visible | 
B+ @ Sa inte i 
日 Sawyer_link6 | 
@ Sawyer link& visible | 
Br £9 Sawyer joint? | 
B7 @ Sawyer lini j 
@& Sawyer tip é 


B7 @ Sawyer link? visible 
& Sa 


vristCamera 





165 CoppeliaSim (V-REP) 中 任务 场景 的 层级 ， 包 括 Sawyer 机 械 辟 在 内 的 所 有 物理 模型 。 红 色 
箭头 表示 用 于 端点 控制 模式 的 反 向 运动 学 链 。 黑 色 字体 表示 场景 中 可 见 的 物体 ， 而 灰色 
字体 表示 不 可 见 的 虚拟 物体 








EE" Ad E 71 
图 166  CoppeliaSim (V-REP) 中 设置 视觉 传感器 。 左 面 的 图 片 设 置 相机 位 置 ; 右面 图 片 中 右上 


角 的 小 窗口 是 由 所 放置 的 相机 得 到 的 。 如 果 采 用 基于 图 像 的 控制 策略 并 调用 相机 ， 那 么 
它 可 以 给 每 个 时 间 步 提供 图 像 观 察 量 ( 见 彩 插 ) 
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图 16.7 手动 改变 CoppeliaSim (V-REP) 中 物体 的 位 置 ( 见 彩 插 ) 














以 上 是 设置 环境 场景 的 过 程 ， 这 个 场景 给 我 们 提供 了 任务 中 可 以 看 到 的 实体 。 这 些 实体 的 动 
力学 过 程 将 遵从 物理 模拟 器 的 模拟 规则 。 除 此 之 外 ， 我们 还 需要 给 在 环境 中 定义 控制 流程 和 奖励 
函数 (Reward Functions)， 通 常 包括 物体 移动 的 限制 条 件 (主要 是 运动 类 的 任务 )、 一 个 训练 片段 
(Episode) 的 开启 和 结束 步骤 、 初 始 化 条 件 、 观 察 量 的 形式 等 。 在 我 们 的 Git 文件 中 ， 我 们 提供 
了 一 个 脚本 sawyer. grasp. env. boundingbox.py 用 来 在 场景 中 实现 这 些 功能 。 为 了 便于 之 后 应 
用 强化 学 习 算 法 进行 控制 ， 这 个 脚本 我 们 采用 与 OpenAI Gym 环境 相似 的 应 用 程序 接口 〈APIs )。 
我 们 上 面 构建 的 场景 本 身 是 静态 的 ， 而 这 个 控制 脚本 可 以 为 它 提 供 控制 动力 学 过 程 的 功能 (除了 
模拟 器 中 实现 的 物理 过 程 );。 对 于 这 个 机 器 人 抓 取 任 务 ， 我 们 使 用 正 向 运动 学 (直接 控制 关节 运 
动 速度 ) 的 控制 机 制 来 控制 机 械 臂 。 我 们 也 使 用 不 同 配置 方式 实现 了 一 个 通过 反 向 运动 学 实现 控 
制 的 《控制 机 械 臂 终端 位 置 ) 的 场景 。 反 向 运动 学 控制 通常 需要 求 一 个 描述 关节 角度 和 机 械 辟 端 
点 位 置 关系 的 雅 可 比 〈Jacobian) 矩阵 的 逆 ， 这 个 功能 在 PyRep 中 也 有 文 持 。 更 多 关于 反 向 运动 
学 设置 的 细节 超出 本 书 范围 。 我 们 提供 的 例子 程序 中 的 脚本 定义 的 动力 学 过 程 和 机 器 人 控制 可 以 
文 持 以 上 两 种 控制 机 制 。 

注意 : 实践 中 ， 当 你 尝试 构建 自己 的 机 器 人 模型 或 用 不 同 的 组 件 组 装 定制 机 械 臂 的 时 候 ， 你 

需要 小 心机 械 臂 上 不 同 模块 的 组 装 顺序 和 依赖 关系 。 这 与 CoppeliaSim (V-REP) 软件 对 动态 和 
静态 组 件 《〈 比 如 反 向 运动 学 中 的 Sawyer_tip 是 一 个 静态 组 件 ) 的 一 些 要 求 有 关 。 细 节 参 考官 方 
网 站 4。 
在 CoppeliaSim (V-REP) 中 设置 好 环境 场景 之 后 ， 我 们 需要 用 PyRep 软件 包 写 一 个 定义 环 
境 中 动力 学 过 程 和 奖励 函数 的 控制 脚本 。 我 们 的 仓库 中 提供 了 定义 环境 的 代码 。 下 面 几 小 节 中 我 
们 将 介绍 项 目 中 用 到 的 函数 和 模块 。 

环境 脚本 中 的 模块 

导入 所 需 软件 包 并 设置 下 面 需要 的 全 局 变量 。 



































































































































































































































































































































4 链接 见 读 者 服务 
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from 
from 
from 
from 
from 
from 
from 
from 


from 


os.path import dirname, join, abspath 


pyrep 
pyrep 
pyrep 


pyrep. 
pyrep. 
pyrep. 
pyrep. 
pyrep. 


import PyRep 


.robots.arms.sawyer import Sawyer 


.robots.end effectors.baxter gripper import BaxterGripper 


objects.proximity sensor import ProximitySensor 
objects.vision sensor import VisionSensor 
objects.shape import Shape 

objects.dummy import Dummy 


const import JointType, JointMode 


import numpy as np 


import matplotlib.pyplot as plt 


import math 


POS MIN, POS MAX = [0.1, -0.3, 1.], [0.45, 0.3, 1.] & HW A8 x EB 








El 















































所 定义 机 器 人 抓 取 任务 环境 类 的 整体 结构 显示 如 下 。 这 里 所 有 的 函数 都 在 类 中 简写 ， 我 们 将 
在 后 文中 展开 介绍 。 
class GraspEnv(object): 
# Sawyer 机 器 人 抓 取 物 块 
def __init__(self, headless, control_mode=’ joint_velocity’): 
# BE: 
# :headless: bool, wW» True， 没 有 可 视 化 ; 否则 有 可 视 化 
# :control mode: str, 'end position' 或 "joint_velocity” 
def _get_state(self): 
# 返回 包括 关节 角度 或 速度 和 目标 位 置 的 状态 
def _is_holding(self): 
# 返回 抓 取 目标 与 否 的 状态 ， 为 bool 
def _move(self, action, bounding_offset=0.15, step_factor=0.2, max_itr=20, 
max_error=0.05, rotation norm =5.): 
# XT ’end_position’ 模式 ， 用 反 向 运动 学 根据 动作 移动 末端 。 反 向 运动 学 模式 控制 是 通过 设 





* 置 末端 目标 来 实现 的 ， 而 非 使 用 solve_ik() 函数 ， 因 为 有 时 solve_ik() 函数 不 能 正确 工作 
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# 模式 : 闭环 比例 控制 ， 使 用 反 向 运动 学 
















































































# 参数 : 

# :bounding offset: 有 效 目 标 位 置 范围 外 的 边界 方 框 所 用 的 偏 移 量 ， 作 为 有 效 且 安 全 的 动作 
# 范围 

# :step factor: 小 步 长 因子 ， 用 来 乘 以 当前 位 置 和 位 置 的 偏差 ， 即 作为 控制 的 比例 因子 

# :max_itr: 最 大 移动 迭代 次 数 

# :max_error: 每 次 调用 时 移动 距离 误差 的 上 边界 

# :rotation norm: 用 来 归 一 化 旋转 角度 值 的 因子 ， 由 于 动作 对 每 个 维度 有 相同 的 值 范围 ， 角 
# 度 需要 额外 处 理 





def reinit(self): 
# 重新 初始 化 环境 ， 比 如 可 当 夹 具 在 探索 中 破损 时 调用 








def reset(self, random target-False): 
# 重 置 夹具 位 置 和 目标 位 置 

















def step(self, action): 
# 根据 动作 移动 机 械 臂 : WREAK A’ joint_velocity’, WAZ 7 维 的 关节 速度 值 +1 
# 维 的 夹具 旋转 值 ; 如 果 控 制 模式 为 "end_position:'， 则 动作 是 3 维 末端 〈 机 械 臂 端点 ) 位 置 
#41 维 夹具 旋转 值 


def shutdown(self): 
# 关闭 模拟 器 











第 一 步 是 初始 化 环境 ， 包 括 设置 共用 变量 ， 如 init O 函数 所 定义 的 一 样 : 








def __init__(self, headless, control_mode=’ joint_velocity’): 
# BR: 
# :headless: bool, 7j True， 则 没有 可 视 化 ; 否则 有 可 视 化 


# :control mode: str, 'end position' 或 "joint_velocity'” 

















# 设置 公共 变量 
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self.headless = headless # @ headless 为 True， 则 无 可 视 化 
self.reward_offset = 10.0 # 抓 到 物体 的 奖励 值 
self.reward_range = self.reward_offset # 奖励 值 域 
self.penalty offset = 1. # 对 不 希望 发 生 情 形 的 惩罚 值 
self.fall down offset = 0.1 # 用 于 判断 物体 掉 落 桌面 的 距离 值 
self.metadata=[] # gym 环境 参数 
self.control_mode = control_mode 

# 机 械 臂 控制 模式 : 'end position' 3%’ joint_velocity’ 























函数 __init_O 的 第 二 部 分 是 设 定 和 启动 场景 ， 并 设置 场景 中 物体 相应 的 代 弄 





i 
IRI 




















self.pr = PyRepO # 调用 PyRep 
if control mode == 'end position': 4 所 有 关节 都 以 反 向 运动 学 的 方式 进行 的 位 置 控制 模式 
SCENE_FILE = join(dirname(abspath(__file__)), 

'./scenes/sawyer reacher rl new ik.ttt') # 使 用 反 向 运动 学 控制 的 场景 

elif control mode == 'joint velocity': # 所 有 关节 都 以 正 向 运动 学 的 力 或 力矩 方式 进行 的 
度 控 制 模式 
SCENE_FILE = join(dirname(abspath(__file__)), 
'./scenes/sawyer reacher rl new.ttt') # 使 用 正 向 运动 学 控制 的 场景 
self.pr.launch(SCENE FILE, headless-headless) # È 317%, headless 意味 着 无 可 视 化 
self.pr.start() # 启动 场景 
self.agent = Sawyer() # 得 到 场景 中 的 机 械 辟 
self.gripper = BaxterGripper() # 得 到 场景 中 的 夹具 
self.gripper left pad = Shape(’BaxterGripper_leftPad’) # 夹具 手指 上 的 左 护 垫 
self.proximity_sensor = ProximitySensor('BaxterGripper attachProxSensor') 
# 传感器 名 称 

self.vision sensor = VisionSensor('Vision sensor') # 传感器 名 称 

self.table = Shape(’diningTable’) # lel 中 的 桌子 ， 用 来 检查 碰撞 

if control_mode == ’end_position’: 3 ALMUS St Ar RA EH E 
self.agent.set control loop enabled(True) £ 若 为 False， 则 反 向 运动 学 无 法 工作 
self.action_space = np.zeros(4) 

# 3 自由 度 的 端点 位 置 控制 和 1 
elif Pe == 'joint. velocity': 

过 直接 设置 每 个 关节 速度 来 用 正 向 运动 学 控制 机 械 辟 


self.agent.set control loop enabled(False) 



































度 的 夹具 旋转 控制 





T 




















self.action space - np.zeros(7) 


#7 自由 度 速度 控制 ， 无 须 额外 控制 端点 旋转 ， 第 7 个 关节 控制 它 

















else: 
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raise NotImplementedError 
self.observation space = np.zeros(17) #7 个 关节 的 标量 位 置 和 标量 速度 +3 维 目 标 位 置 
self.agent.set motor. locked at. zero. velocity(True) 
self.target = Shape(’target’) # 得 到 目标 物体 
self.agent ee tip - self.agent.get tipO 

3 机 械 臂 末端 的 一 个 部 分 ， 作 为 反 向 运动 学 控制 链 的 末端 来 进行 控制 
self.tip target = Dummy('Sawyer target') # 末端 (机 械 辟 的 端点 ) 运动 的 目标 位 置 
self.tip pos = self.agent ee tip.get position() # 末端 x, y, z 位置 








函数 __init_O 的 第 三 部 分 是 设置 合适 的 初始 机 器 人 姿势 和 末端 位 置 : 
































if control_mode == ’end_position’: 
initial_pos = [0.3, 0.1, 0.9] 
self.tip target.set position(initial pos) # 设置 目标 位 置 
# 对 旋转 来 说 单 步 控 制 足 以 通过 设置 reset dynamics-True 就 可 以 立即 设置 旋转 角 
self.tip_target.set_orientation([0,np.pi,np.pi/2], reset_dynamics=True) 
+ 前 两 个 治 着 x 和 y 轴 的 维度 使 夹具 向 下 
self.initial_tip_positions = self.initial_target_positions = initial_pos 
elif control mode == 'joint velocity': 





self.initial joint. positions = [0.0, -1.4, 0.7, 2.5, 3.0, -8.5, 4.1] 
# 一 个 合适 的 初始 姿态 
self.agent.set_joint_positions(self.initial_joint_positions) 
self.pr.stepO 




















如 下 所 示 是 一 个 获得 观察 状态 的 函数 , 包括 关节 位 置 和 速度 , 以 及 目标 物体 的 三 维 空间 位 置 ， 
总 共 17 维 。 




















def _get_state(self): 
# 返回 包括 关节 角度 或 速度 和 目标 位 置 的 状态 





return np.array(self.agent.get joint positions() + # list， 维 数 为 7 
self.agent.get joint velocities() + # 1ist， 维 数 为 7 
self.target.get_position()) £ 1ist， 维 数 为 3 





























个 决定 夹具 是 否 抓 到 物体 的 函数 被 定义 为 _is_holding()， 通 过 夹具 护 垫 上 的 碰撞 检测 
和 近 距 离 传 感 器 来 决定 物体 是 否 在 夹具 内 。 























def _is_holding(self): 
# 返回 抓 取 目标 与 否 的 状态 ， 为 bool 
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# 注意 碰撞 检测 不 总 是 准确 的 ， 对 于 连续 碰撞 帧 ， 可 能 只 有 开始 的 4~5 帧 碰撞 可 以 被 检测 到 
pad_collide_object = self.gripper_left_pad.check_collision(self.target) 





if pad_collide_object and self.proximity_sensor.is_detected(self.target)==True: 
return True 
else: 


return False 











函数 _move () lide abu iei ee ann i 多 动机 械 臂 末端 执行 器 。PyRep 
中 可 以 通过 在 机 械 臂 末端 放置 一 个 部 件 来 实现 以 反 向 运动 学 控制 末端 执行 器 ， 有 具体 做 法 是 设置 这 
个 末端 部 件 的 位 置 和 旋转 角 。 ues ] pr.stepO MA, ASAE PyRep 中 机 械 臂 关节 的 反 向 运 
动 学 控制 可 以 自动 求解 。 由 于 单个 较 大 步 长 的 控制 可 能 是 不 精确 的 ， 这 里 我 们 将 整个 动作 产生 的 
位 移 运 动 分 解 为 一 系列 小 步 长 运动 ， 并 采用 一 个 有 最 大 迭代 次 数 和 最 大 容错 值 的 反馈 控制 闭环 来 
执行 这 些小 步 长 动作 。 




















































































































def _move(self, action, bounding_offset=0.15, step_factor=0.2, max_itr=20, 


max_error=0.05, rotation norm =5.): 
















































































# %}F’end_position’ 模式 ， 用 反 向 运动 学 根据 动作 移动 末端 。 反 向 运动 学 模式 控制 是 通过 设 
# 置 末端 目标 来 实现 的 ， 而 非 使 用 solve ikO 函数 ， 因 为 有 时 solveikO 函数 不 能 正确 

# 工作 。 

# 模式 : 闭环 比例 控制 ， 使 用 反 向 运动 学 

# BR: 

# :bounding offset: 有 效 目 标 位 置 范围 外 的 边界 方 框 所 用 的 偏 移 量 ， 作 为 有 效 且 安全 的 动作 
# 范围 

# :step factor: 小 步 长 因子 ， 用 来 乘 以 当前 位 置 和 目标 位 置 的 偏差 ， 即 作为 控制 的 比例 因子 
# :max_itr: 最 大 移动 迭代 次 数 

# :max error: 每 次 调用 时 移动 距离 误差 的 上 界 

# :rotation norm: 用 来 归 一 化 旋转 角度 值 的 因子 ， 由 于 动作 对 每 个 维度 有 相同 的 值 范围 ， 

# 角度 需要 额外 处 理 


pos=self.gripper.get_position() 


# 检查 状态 加 动作 是 否 在 边界 方 框 内 ， 若 在 ， 则 正常 运动 ; 否则 动作 不 会 被 执行 。 该 范围 为 
# x_min < x < x_max E y_min < y < y_max Hz» z_min 
if pos[0]+action[0]>POS_MIN[0]-bounding_offset and 
pos[0]+action[0]<POS_MAX[0]+bounding_offset \ 
and pos[1]+action[1] > POS_MIN[1]-bounding_offset and pos[1]+action[1] < 


399 


第 16 章 模拟 环境 中 机 器 人 学 习 





POS_MAX[1]+2*bounding_offset \ 
and pos[2]+action[2] > POS MIN[2]-2*bounding offset: # z 轴 有 较 大 偏 移 量 


# 物体 的 set_orientation() 和 get orientationO 之 间 有 一 个 错 配 情况 ， 
# set_orientation() 中 的 (x, y, z) 对 应 get orientation() 中 的 (y, x, -z) 


ori_z=-self.agent_ee_tip.get_orientation() [2] 











# 减 号 是 因为 set_orientation() 和 get orientation( 之 间 的 错 配 
target pos = np.array(self.agent_ee_tip.get_position())+np.array(action[:3]) 
diff-1 # 初始 化 
itr=0 
while np.sum(np.abs(diff))>max_error and itr<max_itr: 
itr+=1 
# 通过 小 步 来 到 达 位 置 
cur_pos = self.agent_ee_tip.get_position() 
diff=target_pos-cur_pos # 当前 位 置 和 目标 位 置 差异 ， 进 行 闭环 控制 
pos = cur_pos+step_factor*diff 
# 根据 当前 差异 迈 一 小 步 ， 防 止 反 向 运动 学 无 法 求 外 
self.tip_target.set_position(pos.tolistQ) 
self.pr.stepO # 每 次 设置 末端 目标 位 置 ， 需 调用 模拟 步 来 实现 


T! 





3 





























# 对 oz 轴 旋 转 单 步 即 可 ， 但 是 由 于 反 向 运动 学 求解 器 的 问题 ， 所 以 还 是 存在 小 误差 
ori z--rotation norm*action[3] 
# 归 一 化 旋转 值 ， 因 为 通常 在 策略 中 对 旋转 和 位 移 的 动作 范围 是 一 样 的 
self.tip_target.set_orientation([0, np.pi, ori z]) 
# 使 夹具 向 下 并 沿 z 轴 旋 转 oriz 
self.pr.step() # 模拟 步 


























else: 


print("Potential Movement Out of the Bounding Box!") 
pass # 如 果 潜 在 运动 超出 了 边界 方 框 ， 动 作 不 会 执行 




















这 里 提供 了 一 个 可 以 重新 初始 化 场景 的 函数 。 





def reinit(self): 
# 重新 初始 化 环境 ， 比 如 当 夹具 在 探索 中 破损 时 可 调用 
self.shutdownO # 首先 关 掉 当 前 环境 
self.__init__(self.headless) # 以 相同 的 headless 模式 进行 初始 化 
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如 下 是 一 个 能 够 重 置 场景 中 目标 物体 和 机 械 臂 的 函数 。 














def reset(self, random_target=False): 


# 重 置 夹具 位 置 和 目标 位 置 





# 设置 目标 物体 
if random_target: # 随机 化 
pos = list(np.random.uniform(POS_MIN, POS_MAX)) # 从 合理 范围 的 均匀 分 布 中 采样 
self.target.set position(pos) # 随机 位 置 
else: # 无 随机 化 
self.target.set position(self.initial target positions) # 固定 位 置 
self.target.set_orientation([0,0,0]) 




















self.pr.stepQ 


# 把 末端 位 置 设置 到 初始 位 置 

if self.control mode == 'end position': # JointMode.IK 
self.agent.set control loop enabled(True) # 反 向 运动 学 模式 
self.tip target.set position(self.initial tip positions) 

# 由 于 反 向 运动 学 模式 或 力 /力矩 模式 开启 ， 所 以 无 法 直接 设置 关节 位 置 

self.pr.stepQ 
# XPÓ- REUS HT RAR MSR, AMR KERR RR AE, 
# 从 而 无 法 正常 重 置 ， 因 此 在 预期 位 置 无 法 到 达 时 需要 采用 一 些 随 机 动作 


itr=0 






































>H 














max_itr=10 

while np.sum(np.abs(np.array(self.agent ee tip.get. position()- 
np.array(self.initial tip positions))))»508.1 and itr«max itr: 
itr4-1 


self.step(np.random.uniform(-0.2,0.2,4)) # 采取 随机 动作 来 防止 卡 住 的 情况 
self.pr.stepO 


elif self.control mode -- 'joint velocity': £ JointMode.FORCE 
self.agent.set joint positions(self.initial joint. positions) 
self.pr.stepQ 


# 设置 可 碰撞 (collicable) 模式 ， 用 于 碰撞 检测 

self.gripper_left_pad.set_collidable(True) 
# 设置 夹具 护 垫 为 可 碰撞 的 ， 从 而 可 以 检测 碰撞 

self.target.set collidable(True) 
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# 如 果 夹 具 没 有 完全 打开 ， 将 其 完全 打 
if np.sum(self.gripper.get_open_amount())<1.5: 








self.gripper.actuate(1, velocity=0.5) 
self.pr.stepO 


return self. get state() # 返回 环境 当前 状态 












































如 其 他 环境 COpenAI Gym 等 ) 中 经 常 使 用 的 stepO 函数 ， 在 我 们 这 里 的 环境 中 也 会 
这 个 函数 需要 相应 的 动作 值 作为 输入 。 如 果 机 器 人 是 由 end. position 模式 使 用 反 癌 运动 学 控 和 
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的 ， 它 需要 调用 之 前 定义 的  moveO 函数 来 执行 动作 ， 如 果 机 器 人 是 由 joint velocity 模式 
通过 正 向 运动 学 控制 的 ， 那 么 机 械 臂 上 的 关节 位 置 可 以 直接 被 设 定 。 





















































def step(self, action): 


# ARTE SETS ADR: 如 果 控 制 模式 为 "joint_velocity'， 那 么 动作 是 7 维 的 关节 速度 值 +1 
# 维 的 夹具 旋转 值 ; 如 果 控 制 模式 为 'end_position'， 那 么 动作 是 3 HAM GPa) 位 置 


# +1 维 夹 具 旋转 值 





# 初始 化 

done=False # 片段 结束 

reward=0 

hold flag-False # 是 否 抓 住 物体 的 标签 

if self.control_mode == 'end position': 


if action is None or action.shape[0]!-4: # 检查 动作 是 否 合理 
print('No actions or wrong action dimensions! ’) 
action = list(np.random.uniform(-0.1, 0.1, 4)) £ 随机 


self. move(action) 


elif self.control mode -- 'joint velocity': 
if action is None or action.shape[0]!-7: # 检查 动作 是 否 合理 
print('No actions or wrong action dimensions! ’) 
action = list(np.random.uniform(-0.1, 0.1, 7)) £ 随机 
self.agent.set joint target velocities(action) # JL ESTE 
self.pr.stepO 


else: 


raise NotImplementedError 
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除了 移动 机 械 臂 , 奖励 函数 Reward Function), 吸收 状态 (Absorbing State). 结束 信号 (done?) 
和 其 他 像 标记 物体 被 持 有 状态 的 信息 等 也 是 通过 stepO 函数 实现 的 ， 如 下 所 示 。 成 功 抓 取 物 体 
的 奖励 是 一 个 正 数 ， 而 物体 掉 落 桌面 的 惩 习 是 一 个 同样 数值 大 小 的 负数 。 这 构成 了 一 种 稀 玻 奖励 
机 制 ， 而 可 能 对 智能 体 来 说 很 难 学 习 。 所 以 我 们 添加 了 距离 上 的 惩罚 项 来 辅助 学 习 。 这 个 惩罚 项 
的 值 是 末端 执行 器 到 目标 物体 的 距离 ， 同 时 我 们 也 惩罚 夹具 与 桌面 的 碰撞 来 避免 夹具 损坏 。 这 构 
成 了 一 个 密集 奖励 函数 。 然 而 ， 我 们 要 知道 密集 奖励 函数 可 能 跟 最 终 的 任务 目标 有 出 入 ， 而 我 们 
的 目标 是 让 机 器 人 抓 取 目标 物体 。 由 于 距离 惩罚 项 正比 于 夹具 和 物体 中 心 的 距离 ， 它 会 促使 夹具 
尽 可 能 地 接近 物体 中 心 ， 而 这 可 能 导致 不 合适 的 抓 取 姿 态 。 更 多 关于 这 种 奖励 函数 与 强化 学 习 任 
务 目 标 之 间 的 分 下 可 以 参考 第 18 章 中 的 讨论 。 由 于 这 个 原因 , 我 们 需要 对 奖励 函数 进行 修正 ， 比 
如 设 定 一 个 位 于 目标 物体 上 方 的 位 置 偏 移 量 (虚拟 目标 点 ) 来 取代 目标 物体 的 中 心 ， 我 们 将 在 随 
后 的 几 小 节 中 进行 相关 讨论 。 









































































































































































































































ax, ay, az = self.gripper.get_position() 
if math.isnan(ax): # 捕捉 探索 中 夹具 破损 的 情况 


print('Gripper position is nan.') 





self.reinit() 
done=True 
tx, ty, tz = self.target.get_position() 
sqr_distance = (ax - tx) ** 2 + (ay - ty) ** 2 + (az - tz) ** 2 


# 夹具 和 目标 物体 的 距离 的 平方 





# 在 夹具 与 物体 足够 近 且 物体 被 近 距 离 传感器 检测 到 时 关闭 夹具 
if sqr_distance<Q.1 and self.proximity_sensor.is_detected(self.target)== True: 
# 确保 抓 取 之 前 夹具 是 打开 的 
self.gripper.actuate(1, velocity=0.5) 
self.pr.stepQ 
self.gripper.actuate(8, velocity=0.5) 
# 如 果 结束 了 ， 关 闭 夹 具 ，@ 是 关闭 ，1 是 打开 ; RE 9.5 可 以 确保 夹具 在 一 帧 内 关闭 
self.pr.stepO # 物理 模拟 器 前 进一步 





if self. is holdingO: 
reward += self.reward offset # 抓 到 物体 的 额外 奖励 
done=True 
hold_flag = True 

else: 
self.gripper.actuate(1, velocity=0.5) 
self.pr.stepO 
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elif np.sum(self.gripper.get open amount())«1.5: # 如 果 夹 具 由 于 碰撞 或 其 他 原因 是 











# 关闭 的 (或 未 完全 打开 )， 打 开 它 ; get_open_amount() 返回 夹具 关节 的 一 些 数据 值 








self.gripper.actuate(1, velocity=0.5) 
self.pr.stepO 

else: 
pass 

# 基本 奖励 是 距离 目标 的 负 值 


reward -= np.sqrt(sqr_distance) 





# 物体 掉 落 桌面 的 情况 


if tz < self.initial_target_positions[2]-self.fall_down_offset: 











done = True 


reward = -self.reward_offset 














# URES RE E T 
if self.gripper_left_pad.check_collision(self.table): 
reward -= self.penalty_offset 


if math.isnan(reward): # 捕捉 数值 问题 


reward = Q. 


return self.. get state(), reward, done, {’finished’: hold flagj 





用 于 关闭 环境 的 函数 相对 简单 : 




















def shutdown(self): 


# 关闭 模拟 器 
self.pr.stopQ 
self.pr.shutdown() 












































来 控 










































































= 































































































为 观察 量 ， 或 者 设置 任务 使 其 更 加 困难 和 复杂 ， 等 等 。 
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在 以 下 实验 中 ， 我 们 采用 如 下 关于 上 面 抓 取 任务 的 基本 设 定 : 目标 物体 的 初始 位 置 是 固定 的 ; 机 
器 人 关节 位 置 的 初始 化 选取 了 可 以 避免 较 复杂 机 器 人 姿态 的 方式 ; 机 
出 关 节 速 度 的 ， 机 器 人 的 控制 是 基于 数值 状态 的 ， 包 括 关 节 位 置 、 关 节 速 度 和 目标 位 置 作为 
观察 量 。 但 是 读者 可 以 随意 更 改 这 些 设置 使 其 更 复杂 ， 比 如 使 用 反 向 运动 学 模式 来 控制 机 器 人 末 
端 位 置 ， 使 用 原始 图 像 进行 基于 视觉 的 控制 或 用 它 与 部 分 的 数值 状态 相 结合 ， 


[器 人 是 通过 正 向 运动 学 模式 

















使 用 更 少 的 信息 作 


16.2 ”强化 学 习 用 于 机 器 人 学 习 任 务 





在 项 目 





文件 中 ，Sawyer JAA 





E 务 的 环境 可 以 用 以 下 命令 来 测试 : 





python sawyer_grasp_env_boundingbox. py 
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环境 。 
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颈 主要 在 了 
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常 低 效 。 我 们 需 





述 基于 了] 
并 且 ， 机 器 人 模拟 系统 的 复杂 怕 
EE 架 在 较 短 时 间 内 训练 一 个 市 





判 的 机 器 人 学 习 环 境 有 





FE 向 运动 学 控 
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间 ， 因 此 相 比 于 之 前 第 5 章 和 第 6 章 ' 
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HO ERE AY 7 维 连续 动作 空间 ， 以 及 
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日 对 好 





1 练 框架 来 改 











在 这 个 项 目 


13 章 的 项 目 中 
短 地 
用 对 角 
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， 我 们 使 
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的 并 行 框架 。 


高 斯 (Gaussian) 策略 来 应 对 高 纪 
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子 进 行 适 应 ; 
ETT i LE JU 

















法 采用 离线 策 




















策 
则 使 腾 





IEA 


3 了 并 行 的 采样 进程 ， 




















也 很 困难 ， 如 





果 只 使 有 
启发 式 增强 。 首 
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H Rig: 3 Wl 2 
标 物体 是 一 个 长 方 体 ， 由 于 它 的 


JH 
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F CoppeliaSim (V-REP) 的 模拟 过 程 ， 如 果 只 
开行 的 离线 1 





Ie 
ak: 
=] 


述 选择 SAC 算法 的 原因 和 优点 所 在 。 作 为 一 利 














使 得 采样 过 程 需 要 耗费 相当 长 的 时 间 。 这 使 得 通过 和 





策略 很 








的 例子 而 言 ， 这 是 一 个 相对 复杂 的 


线程 


AE 



































困难 。 实 践 中 ， 我 们 发 现 策略 学 习 速 度 的 瓶 
用 单 进 程 采样 ， 就 会 使 得 整个 学 习 过 程 非 

















这 个 任务 的 采 检 


E Actor-Critic (Soft Actor-Critic, SAC) 算法 , 使 月 


SAC 算法 的 详细 介绍 在 第 6 章 ， 包括 型 


























略 梯 度 (Deep Deterministic Policy Gradient) 算法 更 加 稳定 并 
生 学 习 的 方法 (Haarnoja et al., 2018) 
化 ， 这 对 像 机 器 人 抓 取 这 类 难以 训 





离线 策略 〈Off-Policy) 学 习 算法 
连续 动作 空间 ， 并 且 它 在 训练 中 比 








的 是 第 
E 论 和 实现 方法 ， 所 以 这 里 只 简 
，SAC 使 
其 他 像 深度 确定 性 策 





qu 
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后 。 它 也 采用 
ANA 




















略 的 学 习 方式 ， 所 以 它 在 实践 








让 机 























能 调整 方向 使 


其 垂直 于 物体 长 边 来 夹 








个 额外 的 惩罚 项 如 下 : 





Lav AZEF E 





区， 并 且 朝 向 需要 











可 以 较 























向 下 。 


FE 务 来 说 可 以 促进 探索 。 还 有 ， 
方便 地 改 成 并 行 版 本 。 
外 定义 的 密集 奖励 探索 一 个 好 的 物 
E 上 加 难 。 为 了 进一步 促进 学 习 过 程 ， 
长 边 要 长 于 夹具 的 开 合 宽度 ， 所 以 夹具 只 





柔性 Q-Learning (Soft Q-Learning ) 
IT SAC 算 




















体 抓 取 姿势 
我 们 对 奖励 函数 进行 


























因此 ， 我 们 在 奖励 函数 上 添加 了 一 








# 对 角度 的 增强 奖励 : 如 果 夹 具 与 目标 物体 方向 相 垂直 ， 这 是 一 个 更 好 的 抓 取 姿态 


# 注意 夹具 的 坐 


标 系 与 














标 坐 标 系 有 \pi/2 的 z 方 向 角度 差异 





desired_orientation = np.concatenate(([np.pi, 0], [self.target.get_orientation() [2]])) 


# 夹具 与 











EH, Ji 








dr á 





F 且 朝 下 


rotation penalty = -np.sum(np.abs(np.array(self.agent_ee_tip.get_orientation())- 


desired_or 


rotation_norm 


ientation) ) 
= 0.02 


reward += rotation_norm*rotation_penalty 




















其 次 ， 如 上 所 述 ， 将 夹具 和 物体 之 间距 离 的 负数 作为 奖励 函数 的 一 部 分 可 能 会 导致 非 最 优 的 夹 取 
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姿势 。 所 以 第 二 个 奖励 函数 上 的 修正 
E 离 项 的 修改 如 下 所 示 : 





点 的 ， 这 个 对 里 





是 通过 设 








目标 物体 中 心 上 方 一 个 偏 移 量 的 人 





置 

















立 置 作为 零 惩罚 














# 对 目标 位 置 的 
offset-0.08 4 偏 移 量 


sqr_distance = (ax - tx) ** 





曾 强 奖励 : 目标 位 置 相 对 目标 物体 有 垂直 方向 上 的 相对 偏 移 


2 + (ay - ty) ** 2 + (az - (tztoffset)) ** 2 


# 夹具 和 目标 位 置 距离 的 平方 









































































































































































































































通过 以 上 两 种 对 奖励 函数 的 增强 ， 学 习 效果 相 比 于 原始 的 密集 或 稀 朴 奖励 的 情况 得 到 进一步 提 
升 ， 如 图 16.8 所 示 。 
" 学 习 曲 线 (稀疏 奖励 ) 

B 

BK 

ius 学 习 曲 线 (密集 奖励 ) 

XK iol 

m 

P+ i 0 250 500 750 1000 1250 1500 1750 2000 

B 学 习 曲 线 (增强 密集 奖励 】 

a -5:0 oe aoe ee ee 

E- 75] | | | | | | | | | 

成 功 

v us cae) 

R” 密集 奖励 

R o 一 Sreem - i | | | 

"mm 
图 168 使 用 SAC 算法 并 行 训 练 的 Sawyer 机 器 人 抓 取 任务 的 学 习 表 现 ， 使 用 不 同 奖励 函数 的 
比较 
奖励 函数 工程 是 实践 中 一 种 有 效 结 合 人 类 先 验 知 识 来 辅助 学 习 的 方式 ， 尽 管 这 可 能 与 科学 在 

究 本 身 的 诉求 相 斥 ， 因 为 从 科研 的 角度 讲 ， 人 们 往往 更 加 专注 于 减少 奖励 函数 工程 的 工作 量 ， 以 
及 其 他 对 智能 体 学 习 的 人 为 辅助 ， 同 时 希望 实现 更 加 智能 和 自动 化 的 学 习 过 程 。 其 实 ， 在 实践 中 
解决 一 个 任务 ， 类 似 以 上 的 一 些 人 为 辅助 设计 可 能 会 很 有 帮助 。 除 了 奖励 函数 工程 ， 从 专家 示范 
中 学 习 也 是 实践 中 一 种 有 效 改善 学 习 效果 的 方式 ， 如 第 8 章 所 述 。 
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16.2.1 并行 训练 


CoppeliaSim (V-REP) 软件 需要 每 个 模拟 环境 有 一 个 独立 的 进程 。 因此 ,为 了 加 速 采样 过 程 ， 


我 们 设置 了 多 进程 而 非 多 线程 的 方式 来 并 行 收集 样本 。 我 们 的 代码 库 中 提供 了 一 个 通过 PyTorch 
实现 的 多 进程 版 本 的 SAC 算法 。 其 训练 和 测试 过 程 可 以 简单 地 运行 如 下 : 





































































































# 训练 
python sac_learn.py --train 
# 测试 


python sac_learn.py --test 





























在 这 个 代码 中 ， 环 境 的 交互 是 通过 多 个 进程 实现 的 ， 每 个 进程 包含 一 个 模拟 环境 。 























16.2.2 学习 效果 


我 们 测试 了 算法 在 Sawyer 抓 取 任务 上 的 表现 ， 并 在 表 16.1 中 给 出 了 训练 所 需 的 超 参数 。 学 
习 效 果 如 图 16.8 所 示 ， 包 括 三 种 不 同类 型 的 奖励 函数 。 图 16.8 PTS ea BR EL — 10 是 由 
物体 掉 落 桌面 的 惩罚 造成 的 。 不 同 的 奖励 函数 给 出 了 不 同 范围 的 奖励 值 ， 直 接 对 这 些 奖励 值 曲线 
进行 比较 可 能 是 不 公平 的 。 除 给 出 (平滑 的 ) 片段 奖励 外 ， 我 们 还 展示 了 整个 学 习 过 程 中 的 抓 取 
成 功率 。 随 着 训练 进行 ， 我 们 可 以 清楚 地 看 到 成 功 事件 发 生得 越 来 越 频 繁 ， 这 显示 出 机 器 人 抓 取 
技能 的 进步 。 增 强 的 奖励 函数 对 比 原始 密集 奖励 函数 体现 了 显著 的 加 速 学 习 的 效果 ， 而 对 于 稀 下 C 
奖励 来 说 ， 探 索 和 学 习 抓 取 物体 几乎 是 不 可 能 的 。 
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表 16.1 SAC 的 超 参数 


参数 值 
优化 器 Adam (Kingma et al., 2014) 
学 习 率 3x10-4 
奖励 折扣 (xy) 0.99 
工作 者 (workers) 数量 
隐藏 层 数 (策略) 



































隐藏 单元 数 〈 策 略 ) 
隐藏 层 数 〔Q 网 络 ) 
隐藏 单元 数 〔Q 网 络 ) 
批 尺寸 

SES Es BNE HE RE B) 40 [E 
缓存 尺寸 1 x 106 
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如 图 16.9 所 示 , 在 几 干 个 片段 的 训练 过 后 , 机 器 人 已 经 能 够 从 一 个 固定 的 目标 物体 位 置 将 其 
抓 到 ， 尽 管 抓 取 的 姿势 不 是 很 完美 且 成 功率 还 不 是 很 高 。 在 这 个 例子 中 ， 整 个 训练 过 程 是 从 头 开 
始 的 ， 没 有 任何 的 示范 或 预 训练 。 



































169 经 过 训练 ，Sawyer 在 模拟 环境 中 用 深度 强化 学 习 的 策略 抓 取 物 体 ( 见 彩 插 ) 


16.2.3 BEHE 


当 我 们 将 模拟 环境 中 训练 得 到 的 策略 用 于 现实 中 时 ， 由 于 现实 世界 动力 学 过 程 和 模拟 环境 中 








的 差异 ， 这 个 策略 往往 不 能 成 功 。 域 随机 化 是 改善 策略 泛 化 能 力 的 一 种 方法 ， 尤 其 是 当 我 们 将 模 





拟 环境 中 学 习 的 策略 迁移 到 现实 情景 中 时 。 

















域 随机 化 可 以 通过 随机 化 环境 中 的 物理 参数 来 实现 , 包括 决定 机 械 辟 动力 学 及 其 与 场景 中 其 
他 物体 动态 交互 过 程 的 参数 。 具体 来 说 , 随机 化 物理 参数 叫 作 动力 学 随机 化 (Peng et al., 2018), Et 
如 ， 物 体 的 质量 、 机 械 臂 上 关节 的 摩擦 力 、 物 体 和 桌面 之 间 的 摩擦 力 等 。 并 且 ， 在 基于 视觉 的 控 
制 中 ， 物 体 颜 色 、 光 照 条 件 和 物体 材质 也 可 以 被 随机 化 ， 这 些 会 影响 通过 观察 机 器 人 图 像 来 对 其 
进行 控制 的 智能 体 。 比 如 ， 我 们 可 以 用 以 下 命令 在 PyRep 中 设置 物体 的 颜色 : 






































self.target.set_color(np.random.uniform(low=0, high-1, size=3).tolistQ) 


# AB 





休 颜 色 设置 Cr, g, b]3 通道 值 











其 他 模拟 环境 中 的 物理 








参数 也 可 以 进行 相应 设置 ， 这 里 超出 了 本 章 范 畴 。 在 训练 智能 体 时 ， 我 们 


可 以 在 整个 训练 过 程 中 对 每 个 片段 或 者 几 十 个 片段 进行 一 次 参数 重 设 置 。 同 时 ， 重 要 的 是 ， 要 保 








证 对 模拟 环境 中 动力 学 参数 和 其 他 特征 进行 随机 化 的 范围 要 能 够 覆盖 现实 中 真实 的 动力 学 过 程 ， 








从 而 缓解 模拟 现实 间隙 。 
域 随机 化 只 是 在 模拟 到 现实 迁移 中 缓解 现实 间隙 的 一 种 可 能 的 方式 ， 以 上 使 用 PyRep 在 
是 


CoppeliaSim 中 进行 视觉 特征 随机 化 的 步骤 也 只 


细 描 述 在 第 7 章 中 。 
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一 个 很 简单 的 例子 。 关 于 模拟 到 现实 迁移 的 详 


16.2 ”强化 学 习 用 于 机 器 人 学 习 任 务 





16.2.4 机 器 人 学 习 基 准 


在 以 上 小 节 中 , 我 们 展示 了 如 何 构建 一 个 机 器 人 抓 取 任务 , 并 用 一 个 强化 学 习 算 法 去 解决 它 。 
近来 ， 文 献 (James et al., 2019b) 提出 了 RLBench 软件 包 (链接 见 读者 服务 )， 作 为 一 个 覆盖 100 个 
独立 的 人 为 设计 任务 的 大 规模 基准 和 学 习 环 境 。 这 个 软件 包 专 门 用 于 促进 基于 视觉 的 机 器 人 操控 

领域 的 研究 ， 不 仅 限于 强化 学 习 ， 而 且 可 以 应 用 于 模仿 学 习 、 多 任务 学 习 、 几 何 计 算 机 视觉 和 小 
样本 学 习 。 如 图 16.10 5 所 示 ，RLBench 基于 前 几 节 所 用 的 PYRep， 它 包含 了 100 个 基本 的 机 器 
人 操控 任务 ， 包 括 抓 取 、 移 动 、 堆 积 和 其 他 多 样 的 现实 世界 中 常见 的 操作 ， 也 支持 通过 简单 的 设 
置 步骤 实现 任务 定制 化 ,并 使 得 包括 强化 学 习 在 内 的 不 同 的 学 习 方法 可 以 用 来 解决 这 个 环境 中 的 
任务 。 
























































Æ 16.10 RLBench 中 定义 的 机 器 人 学 习 任务 ( 见 彩 插 ) 














前 几 小 节 中 介绍 的 机 器 人 抓 取 任务 提供 了 一 个 用 CoppeliaSim (V-REP) 实现 模拟 环境 中 机 
器 人 学 习 的 标准 框架 ， 这 也 适用 于 RLBench 软件 包 。 它 们 都 包括 至 少 三 个 基本 要 素 : (D 在 
CoppeliaSim (V-REP) 中 进行 任务 场景 的 构建 , (2) 通过 脚本 定义 环境 的 模拟 过 程 , 包括 reset 
和 stepO 函数 ，(3) 通过 脚本 提供 一 个 能 够 学 习 的 智能 体 ， 比 如 用 强化 学 习 。RLBench 遵循 这 
种 构建 流程 ， 但 以 一 种 层次 化 的 结构 来 搭建 全 体 任务 。 

RLBench 软件 包 可 以 通过 以 下 命令 来 安装 〈 如 果 你 已 经 安装 了 PyRep): 
































git clone https://github.com/stepjam/RLBench.git 
pip3 install -r requirements.txt 


python3 setup.py install --user 





16.2.5 ”其 他 模拟 器 


如 图 16.11 所 示 ， 有 许多 不 同 的 机 器 人 学 习 模 拟 软件 ， 包 括 OpenAI Gym. CoppeliaSim (V- 
REP/PyRep) (James et al., 2019a; Rohmer et al., 2013). MuJoCo (Todorov et al., 2012). Gazebo, 








5 图 像 来 自 RLBench. 





第 16 章 模拟 环境 中 机 器 人 学 习 





Bullet/PyBullet (Coumans et al., 2016, 2013)、Webots (Michel, 2004)、Unity 3D、NVIDIA Isaac SDK 
等 。 实践 中 , 这 些 软件 包 或 者 平台 对 于 不 同 的 应 用 有 不 同 的 特征 。 举例 来 说 , OpenAI Gym robotics 
环境 是 一 个 相对 简单 的 环境 ， 可 以 快速 验证 提出 的 方法 ，CoppeliaSim 和 Unity 3D 都 是 基于 物理 
模拟 器 的 ， 且 有 着 相对 较 好 的 泻 染 效 果 ; MoJoCo 有 较为 现实 和 准确 的 物理 引擎 ， 可 以 用 于 模拟 
到 现实 迁移 ，Isaac SDK 是 一 个 相对 较 新 的 软件 (于 2019 年 发 布 )， 对 深度 学 习 算 法 和 应 用 有 较 
强 的 支持 ， 以 及 基于 Unity 3D 的 照片 级 真实 的 泻 染 ， 等 等 。 



























































图 16.11 机 器 人 学 习 任 务 : ( 1 ) OpenAl Gym 中 的 FetchPush ( Æ 
( 


) 使 用 PyRep 实现 的 目标 
到 达 任 务 ( 中 ); RoboSuite 中 的 SawyerLift 任务 (Æ ) ) 
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Arena: 多 智能 体 强 化 学 


习 平台 


















































种 定义 多 智能 体 间 社 会 结构 的 方式 ， 包 括 不 可 学 习 的 





在 这 一 章节 ， 我 们 将 介绍 一 个 名 为 Arena (Song et al., 2019) 的 用 于 研究 多 智能 体 强化 学 习 
(Multi-Agent Reinforcement Learning, MARL) 的 项 目 。 我 们 提供 了 一 些 上 手 经验 来 使 用 Arena 
工具 包 构 建 游戏 ， 包 括 一 个 单 智能 体 游 戏 和 一 个 简单 的 双 智 能 体 游戏 ， 并 采 月 
Arena 中 的 奖励 机 制 是 一 











不 同 的 奖励 机 制 。 


(Non-Learnable ) , 


AHL) Cisolated). ZFR (Competitive), AFA (Collaborative) 和 混合 型 的 《Mixed) 社会 关 


系 。 不同 的 奖励 机 制 可 
以 用 不 同 的 奖励 机 制 ， 
























































以 在 一 个 游戏 场景 中 用 于 同一 个 层次 性 结构 上 ， 不同 的 层次 性 结构 上 也 可 
































能 体系 统 的 复杂 关系 。 







































































配合 对 物理 单元 的 从 个 体 到 群体 的 结构 性 表示 ， 可 以 用 来 全 面 地 描述 多 智 
此 外 ， 我 们 也 展示 了 在 Arena 中 使 用 基准 库 的 过 程 ， 它 提供 了 许多 已 实现 












































的 多 智能 体 强化 学 习 算 法 来 作为 基准 。 通 过 这 个 项 目 ， 我 们 希望 给 读者 提供 一 个 有 用 的 工具 , 来 






































研究 在 定制 化 游戏 场景 ! 




















使 用 多 智能 体 强 化 学 习 算 法 的 表现 。 








Arena 是 一 个 在 Unity 上 对 多 体 智能 学 习 进 行 评估 的 通用 平台 。 它 使 用 多 样 化 逻辑 和 表示 方 


式 来 构建 学 习 环 境 ， 并 对 多 智能 体 复杂 的 社会 关系 进行 简单 的 配置 。Arena 也 包 
基准 的 实现 ， 可 以 帮助 读者 快速 验证 所 建立 的 环境 。 总 
一 个 帮助 读者 快速 创造 和 构建 包含 多 智能 体 社 会 关系 的 定制 化 游戏 环境 的 工 





多 智能 体 强化 学 习 算法 














能 体 问 题 。Arena 注重 于 第 一 人 称 或 第 三 人 称 动作 类 游戏 ， 借 助 于 Unity 极 好 的 泻 染 效果 来 实现 





















































含 对 最 先进 深度 
体 来 说 ，Arena 是 





























\， 用 以 探索 多 知 
































3D 仿真 环境 。 而 其 他 像 最 近 由 DeepMind 发 布 的 开源 项 目 OpenSpiel， 则 专注 于 多 智能 体 棋牌 类 


游戏 。 










































































Arena 中 有 两 个 主要 的 模块 : (1) 开发 工具 包 (the Building Toolkit)， 可 以 











制 特征 的 多 智能 体 环 境 ; 














来 快速 构建 有 定 














(2) 基准 库 (the Baselines), PJ UH MARL Sic i 














我 们 将 从 构建 Arena ! 








的 环境 开始 。 
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1 试 所 搭建 的 环境 。 








17.1 安装 





Unity ML-agents 工具 包 是 使 用 Arena 的 前 提 ， 需 要 在 使 用 Arena 之 前 将 其 安装 。Arena 完整 
的 安装 过 程 遵 循 开发 工具 包 和 基准 库 各 自 的 官方 网 站 。 

注意 ， 如 果 你 想 在 没有 图 形 用 户 界面 〈 比 如 X-Server) 的 远程 服务 器 上 运行 或 者 你 无 法 访问 
X-Server， 那 么 你 就 需要 根据 17.3.1 节 中 或 Arena 官网 上 的 指示 来 设置 虚拟 显示 。 

安装 好 之 后 ， 我 们 可 以 发 现在 Arena 文件 夹 下 的 Arena-BuildingToolkit/Assets/Arena 
SDK/GameSet/ 文 件 中 ， 有 几 十 个 已 构建 好 的 或 连续 或 离散 动作 空间 的 游戏 场景 。 它 们 是 预先 制 
作 好 的 ， 作 为 使 用 Arena 的 例子 ， 你 可 以 阅读 所 有 这 些 游戏 的 脚本 来 更 好 地 理解 Arena 是 如 何 工 
作 的 。 所 有 的 游戏 和 抽象 层 共 用 同一 个 Unity 项 目 。 每 一 个 游戏 都 在 一 个 独立 的 文件 夹 中 ， 游 戏 
名 即 文件 夹 命 名 。ArenaSDK 文件 夹 存放 了 所 有 的 抽象 层 和 共享 代码 、 实 体 和 功能 。 整 体 代 码 风 
格 与 Unity ML-agents 工具 包 尽 可 能 一 致 。 


























17.2 FA Arena 开发 游戏 


我 们 将 使 用 Arena 开发 工具 包 内 提供 的 许多 现成 的 实体 和 多 智能 体 功 能 ， 来 展示 一 个 多 智能 
体 游戏 的 构建 过 程 ， 它 不 需要 很 多 代码 。 在 你 开始 之 前 ， 我 们 希望 你 已 经 有 了 关于 Unity 使 用 的 
基本 知识 。 因 此 ， 推 荐 你 先 完成 官网 上 的 roll-a-ball 教程 来 学 习 关于 Unity 的 一 些 基 本 概念 。 

为 了 使 用 Arena, 运行 Unity， 选 择 打开 项 目 ， 选 择 克 隆 或 下 载 的 “Arena-BuildingToolkit” 文 
件 。 第 一 次 打开 的 过 程 可 能 会 花费 一 定时 间 。 

我 们 可 以 看 到 Arena 文件 夹 下 几 十 个 建 好 的 游戏 。 它 们 是 预先 设计 作为 Arena 用 例 的 ， 你 可 
以 阅读 这 些 游戏 的 脚本 来 进一步 理解 Arena 是 如 何 工 作 的 。 我 们 将 在 下 面 小 节 中 提供 搭建 这 些 游 
戏 的 基本 指导 。 











Assets > ArenaSDK > GameSet > 





Al 17.1 Arena 文件 中 提供 已 构建 的 游戏 
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17.2.1 简单 的 单 玩 家 游戏 


我 们 从 构建 一 个 基本 的 单 玩 家 游戏 开始 : 








。 创 建 一 个 文件 夹 来 存放 游戏 。 在 这 部 分 中 ， 我 们 为 单 玩家 游戏 创建 名 为 “1P” 的 文件 夹 。 


。 在 左边 的 “Hierarchy” 窗 口中 , 我 们 删除 原来 的 Main Camera 和 Directional Light. 
文件 夹 Assets/ArenaSDK/SharedPrefabs 下 预制 的 GlobalManager (如 图 17.2 





将 Arena 
所 示 ) d 





入 左边 的 “Hierarchy” 窗 口 , 如 图 17.3 所 示 。 注意 到 ,这 些 预 制 物体 是 Unity 中 公用 的 模块 ， 
可 以 通过 简单 的 拖 忠 操作 来 使 用 任何 提前 定制 好 的 物体 。Arena 中 的 GlobalManager 管理 


















































整个 游戏 ， 因 此 其 他 组 成 部 分 需要 依附 在 它 下 面 。 

















| Assets > ArenaSDK > SharedPrefabs > 








SGeGeGeeeeRvel 


lable ^ DebugDisturb 。 Destroyable Gate GlobalManag... 





KillGate Playground ScreemShotC... TopDownCa. 
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图 17.2 Arena 中 的 预制 模块 ( 见 彩 插 ) 























图 17.3 将 Arena 预制 模块 中 的 GlobalManager 拖 到 当前 游戏 的 “Hierarchy” 窗 




















HeartTower 





中 


。 下面 我 们 需要 放置 一 个 智能 体 的 运动 场所 ， 我 们 找到 Arena 中 名 为 PlayGroundWithDead- 
Walls 的 预制 模块 ， 然 后 将 它 附 于 GlobalManager 的 子 节点 World 上 。GlobalManager 也 























53 — T3553 TopDownCamera 用 于 提供 一 个 游戏 的 全 局 视野 。 这 一 步 在 图 17. 
展示 。 








4 中 有 所 





。 与 上 面 类 似 ， 我 们 需要 从 Arena 预制 模块 中 选择 一 个 BasicAgent 并 将 其 附 于 GlobalMan- 
ager， 如 图 17.5 所 示 。 从 而 我 们 现在 得 到 一 个 在 场地 上 的 智能 体 ， 我 们 可 以 手动 拖 搜 智能 
体 到 一 个 合适 的 位 置 ， 如 图 17.6 R. x 轴 、y 轴 和 z 轴 的 位 置 和 旋转 角 将 在 智能 体 的 

































































Transform 属性 中 展示 。 














。 为 了 让 智能 体 正常 工作 ， 我 们 需要 设 定 游戏 参数 ， 如 图 17.7 所 示 。 这 里 我 们 只 需要 改变 
GlobalManager 中 的 Living Condition Based On Child Nodes. Living Condition 被 选择 为 
At Least Specific Number Living 而 At Least Specific Number Living 值 被 设 为 1。 由 于 我 们 
在 这 个 游戏 中 只 有 一 个 智能 体 ， 上 面 的 设置 保证 了 在 智能 体 数 量 小 于 1 的 任何 情况 下 ， 这 












































17.2 M Arena 开发 游戏 





st 





Assets > ArenaSDK > SharedPrefabs > Playground > 


ed ed 


Playground Playground 3... PlayGroundWi PlayGroundWi. 














图 174 选择 Arena 预制 模块 中 的 一 个 运动 场 Playground )， 并 将 它 附 于 GlobalManager 的 子 节 
点 上 OE) 














Assets > ArenaSDK > AgentPrefabs > BasicAgent 


9 9 
BM. aad 


BasicAgent BasicAgent BasicPlayer  BasicPlayerN... Example 











‘= Hierarchy 


Y hg GlobalManager 


> Wf TopDownCamera 
> 1. World 








图 17.5 选择 并 将 一 个 Arena 预制 模块 中 的 BasicAgent 附 于 GlobalManager 的 子 节点 上 ( 见 彩 
插 ) 











图 17.6 单个 智能 体 在 场地 上 的 场景 ( 见 彩 插 ) 














个 游戏 片段 (Episode) 就 会 结束 并 重启 。 现 在 我 们 需要 按 下 Play 按钮 来 开始 游戏 并 用 键盘 
上 的 “WwW，A，S$，D” 操 作 智 能 体 移动 。 由 于 场地 的 一 边 是 “Dead Walls”， 智 能 体 无 论 何 
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图 17.7 ”进行 单 玩家 游戏 设置 





时 碰 触 它 都 会 结束 生命 并 且 重 新 开始 游戏 。 使 用 BasicAgent 时 也 会 有 很 多 其 他 性 质 ， 包 括 
不 同 的 Actions Settings. Reward Functions (H T 98157524) 等 。 你 可 以 调试 它们 (在 当前 
这 个 游戏 中 只 有 Actions Settings 是 有 效 的 ) 来 熟悉 Arena 开发 工具 包 。 








17.2.2 ”简单 的 使 用 奖励 机 制 的 双 玩 家 游戏 


在 这 一 小 节 ， 我 们 将 介绍 如 何在 游戏 场景 中 按照 社交 树 (Social Tree) 来 部 署 多 于 一 个 智能 
体 的 游戏 。 
。 首 先 , 让 我 们 从 上 面 的 单 玩 家 游戏 开始 。 如 果 我 们 选择 GlobalManager 或 BasicAgent, 那么 
我 们 就 会 发 现 这 些 对 象 都 有 一 个 叫 作 Arena Node (Script) 的 脚本 ， 分 别 如 图 17.8 和 图 17.9 
所 示 ， 这 个 基本 概念 可 以 用 来 帮助 理解 Arena 游戏 中 定义 的 社会 关系 。 关 于 Arena Node 的 
描述 将 在 本 小 节 中 提供 。 











图 17.9 存在 于 BasicAgent 中 的 Arena Node (Script) 


。 我 们 选择 之 前 构建 的 BasicAgent 并 将 它 在 左边 “Hierarchy” 窗 口中 通过 Ctrl+C 和 Ctrl+V 
复制 ， 如 图 17.10 所 示 。 现 在 Global Manager 之 下 有 两 个 Arena Nodes， 因 此 我 们 需要 将 
两 个 BasicAgents 中 的 任 一 个 设置 Node ID 为 1 而 非 0 来 辨别 它们 〈 见 图 17.11) 。 智 能 
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Create * 
v gır 


anny 
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图 





17.10 





在 场景 中 的 位 置 可 以 被 移动 到 一 个 合适 的 位 置 ， 从 而 将 它们 区 分 开 ， 这 是 因为 复 什 














个 智能 体会 有 相同 的 位 置 。 


























Y  GlobalManager > 
> 





hJ TopDownCamera 





在 GlobalManager 下 复制 BasicAgent 








v, = M Arena Node (Script) 
"Script 


Node Settings 
Node ID 





17.11 





“下 























所 示 。 我 们 单 击 Is Reward Ranking， 这 是 一 个 在 GlobalManager 下 用 
励 函数 的 属性 。 我 们 也 将 Ranking Win Type 选择 为 Survive， 这 意味 着 最 后 结束 生命 
你 选择 Depart， 奖 励 将 会 给 














性 奖 





(存活 到 最 后 ) 的 智能 体会 得 到 一 个 正 的 奖励 。 如 果 
Reward Distance〈 这 是 根据 智能 体 到 目标 的 吕 
奖励 的 函数 )。 上 面 是 Arena 中 内 置 的 不 同 奖励 机 制 ， 通 过 或 竞争 或 合作 〈 有 
的 形式 。 不 同 的 游戏 中 会 有 不 同 的 奖励 设置 来 表示 不 同 的 社会 关系 结构 。 你 可 
游戏 使 用 不 同 的 奖励 设置 。 举 例 来 说 ， 如 果 你 想 








命 的 智能 体 。 我 们 也 需要 取消 Is 











» ArenaNode 


r 























而 我 们 选择 GlobalManager . Arena Node (Script) 来 设置 游戏 的 奖励 函数 ， 如 
于 设置 

















= 


后 的 两 








当 GlobalManager 下 有 多 个 节点 时 需要 改变 节点 ID， 使 得 它们 各 不 相同 


图 17.12 
智能 体 竞 争 




















和 先 结束 生 

























































































智能 








本 到 目标 











E 离 给 出 密集 
时 二 者 都 有 ) 






































达 目 标 类 的 任务 ， 那 么 可 以 设置 
Distance， 以 及 将 一 个 目标 物体 ] 
。 我 们 需要 在 GlobalManager 的 





























(f| Target 空格 中 来 设置 。 














Specific Number Living 7j 2, i 


才 会 继续 ， 否 则 游戏 将 终止 并 重 









































。 下 面 我 们 会 使 得 游戏 更 加 复杂 ， 
在 “Hierarchy” 窗 


Node 脚本 附加 到 它 上 面 ， 如 








图 





口 创建 一 个 空 的 对 象 并 将 3 








nA 












































我 们 想 要 两 队 各 




















17.15 所 示 。 


新 开始 。 现 在 我 们 单 击 Play 按钮 ， 游 戏 应 该 正常 运行 ， 
要 一 个 智能 体 结束 了 和 生命， 游戏 就 会 结束 ， 而 且 奖 励 或 惩罚 就 会 施加 给 智能 体 ， 如 Console 
中 所 显示 的 奖惩 记录 ， 见 图 17.14。 


以 对 不 同 的 


的 距离 来 解决 一 个 类 似 到 
个 基于 距离 的 密集 奖励 来 实现 ， 通 过 单 击 勾 选 Is Reward 


Living Condition Based On Child Nodes 下 设置 At Least 
17.13 所 示 ， 从 而 只 有 当 至 少 两 个 智能 体 存活 时 ， 游 戏 





只 





有 两 个 智能 体 来 互相 竞争 。 首 先 ， 我 们 
其 命名 为 “2 Player Team”。 随 后 我 们 将 Arena 
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Ranking Win Type 





1712 在 GlobalManager 下 设置 奖励 函数 


At Least Specific Number Living 





图 17.13 在 GlobalManager 中 设置 最 小 存活 智能 体 数 





Wo 





17.14 ”给 每 个 智能 体 的 奖励 显示 在 Console 中 
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17.15 4% Arena Node 脚本 附加 到 队伍 (Team ) 对 象 上 


。 现 在 我 们 将 两 个 之 前 的 BasicAgent 拖 到 新 创建 的 队伍 对 象 2 Player Team 中 。 随 后 我 们 复 
制 2 Player Team， 将 第 二 组 对 象 的 Node ID 从 0 改 为 1。 现 在 我 们 有 队伍 和 智能 体 的 结构 
如 图 17.16 所 示 。 如 果 我 们 现在 单 击 Play 按钮 ， 我 们 将 会 看 到 两 个 各 有 两 个 智能 体 的 队伍 
在 场景 中 ， 如 图 17.17 所 示 。 








1716 Arena 的 GlobalManager 下 两 个 队伍 ( Teams ) 各 有 两 个 智能 体 ( Agents ) 的 
层次 性 结构 


。 由 于 GlobalManager 的 At Least Specific Number Living 被 设 为 2， 任 何 队伍 生命 的 结束 都 
会 造成 游戏 结束 。 由 于 2 Player Team 的 At Least Specific Number Living 默认 为 1， 只 有 
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当 同 一 个 队伍 中 两 个 智能 体 都 结束 生命 时 才 会 造成 队伍 的 生命 结束 。 我 们 也 可 以 设置 不 同 
的 游戏 逻辑 ， 如 果 我 们 设置 Player Team 的 Living Condition 为 All Living， 那 么 一 个 队 
伍 中 任何 智能 体 结束 生命 都 会 导致 队伍 的 生命 结束 ， 从 而 结束 整个 游戏 。 从 以 上 来 看 ， 通 
过 GlobalManager->Team->Agent 的 社交 树 结构 ，Arena 基本 可 以 通过 定义 生存 和 奖励 机 





























制 ， 使 用 Arena Node 支持 任意 类 型 的 社会 关系 。 








图 17.17 两 个 各 有 两 个 智能 体 的 队伍 在 游戏 中 





17.2.3 ”高 级 设置 


奖励 机 制 
K THH 





EE 复杂 的 社会 关系 ， 在 Arena 中 有 5 个 基本 的 多 智能 体 奖 励 机 制 (Basic Multi-Agent 














Reward Schemes, BMaRSs) 来 定义 社交 树 上 每 个 节点 的 不 同 社交 范式 ， 包 括 : 不 可 学 习 的 Non- 
Learnable，NL)、 独 立 的 (Isolated, IS)、 竞 争 的 (Competitive，CP)、 合 作 的 (Collaborative,，CL)、 


竞争 和 合作 混 


£4 2/6) (Competitive and Collaborative Mixed，CC)。 上 有 具 体 来 说 ,每 个 BMaRS 是 一 个 


对 奖励 函数 的 限制 ， 因 此 它 与 能 产生 某 种 具体 社交 范式 的 一 批 奖励 函数 相关 。 对 于 每 个 BMaRS, 


Arena 提供 了 



































多 个 可 以 立即 使 用 的 奖励 函数 〈 稀 疏 或 密集 )， 简 化 了 有 复杂 社会 关系 的 游戏 构建 过 




















程 。 除 提供 奖励 函数 外 ，Arena 也 提供 了 对 定制 化 奖励 函数 的 验证 选项 ， 从 而 可 以 将 编写 的 奖励 


函数 置 于 一 种 BMaRS 下 而 产生 相应 的 具体 社交 范式 。 我 们 将 详细 讨论 这 五 种 不 同 的 奖励 机 制 。 





= 





首先 我 们 需要 给 出 一 些 预备 知识 。 我 们 考虑 基本 强化 学 习 中 定义 的 一 个 马尔 可 夫 (Markov) 
游戏 ， 它 包括 多 个 智能 体 x < 禄 、 一 个 有 限 的 全 局 状态 空间 s, 6 S、 一 个 对 每 个 智能 体 x 的 有 限 
的 动作 空间 ae， € Ay 和 一 个 对 每 个 智能 体 z 的 有 限 步 奖励 空间 rs 6 及 。 至 于 环境 ， 它 包括 一 
个 转移 函数 9 : S x {Ap 2 6 X) S， 这 是 一 个 有 随机 性 的 〈 由 于 Unity 模拟 器 的 随机 性 ) 函数 
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Stpl ^v g(suiil(se {azt : rc 4))) 和 一 个 对 每 个 智能 体 的 奖励 函数 fp :S x {Az :TE X) R. 
这 是 一 个 确定 性 函数 rety = fe (Se, {02 E XY} AR-MKG RBM f = {foc e X RI 
对 每 个 智能 体 z 在 联合 奖励 函数 下 的 片段 奖励 RE = Y. Trato 对 于 智能 体 来 说 , Arena 考虑 以 
下 情况 , 即 它 观察 srt € Sro 其 中 S, 包括 全 局 状态 空间 S 的 部 分 信息 。 因此, 策略 rz : Sy 一 Ay 
是 一 个 随机 性 函数 Get ~ rz(szi。 除 此 之 外 ，Arena 考虑 智能 体 x 能 够 从 一 个 策略 集合 IT, FOR 
取 一 个 策略 rz 。Arena 假定 所 有 采样 操作 的 随机 种 子 是 , 这 是 从 整个 种 子 空间 Kk 中 采样 得 到 的 。 


不 同 的 BMaRSs 定义 使 用 的 基本 概念 包括 ， 智 能 体 fos x ec X). SE (m, : Tp}. BRET 
奖励 {RI : x e X) 和 联合 奖励 函数 F = (fip SRE X. Arena 中 五 种 不 同 的 
BMaRSs 通过 以 下 方式 定义 : 

1. 不 可 学 习 的 BMaRSs (FN) 是 一 个 联合 奖励 函数 集合 f> WTF: 






























































































































































= (f: Vk € K, Vx € X, Vn, € IL, ORI /On, = 0}, (17.1) 




















0 是 与 定义 rz 的 参数 空间 同样 大 小 和 形状 的 零 矩 阵 。 直 观 上 ，.FNL 意味 着 对 于 任何 智能 体 
r EX 改进 其 策略 rz 都 是 无 法 优化 RE 的 。 
2. 独立 的 BMaRSs (FS) 是 一 个 联合 奖励 函数 的 集合 如 下 : 









































ay 






= =O}, 


(17.2) 


9 J 
={f: f €F™ and Vk € K, Vx € X, Va € XN {2}, Vn, € Il, Vn» € He, 























Hrp ^V" ER GH. EME, FS 意味 着 智能 体 x e X 接受 的 片段 内 奖励 RE 与 任何 其 他 智 
能 体 x E X \ {x} 采取 的 策略 rz TKR. FS 的 上 中 的 奖励 函数 fu 在 其 他 多 智能 体 方法 (Bansal 
et al., 2018; Hendtlass, 2004; Jaderberg et al., 2018) 中 通常 被 称 为 内 部 奖励 函数 (Internal Reward 
Functions), ， 意 味 着 除了 施加 到 群体 层面 的 奖励 函数 〈 比 如 赢 输 ) ， 还 有 指引 学 习 过 程 去 取得 群 
体 层面 奖励 的 奖励 函数 。 和 群体 层面 奖励 可 能 很 稀疏 而 难以 学 习 ， 但 这 些 内 部 奖励 可 以 更 频繁 地 获 
取 ， 即 更 加 密集 (Heess et al., 2017; Singh et al., 2009, 2010) . FS 在 比如 当 智 能 体 是 一 个 机 器 人 需 
要 连续 控制 施加 在 关节 上 的 力 的 时 候 变 得 更 加 切实 可 行 ， 这 意味 着 基本 的 动作 技巧 〈 比 如 运动 ) 
需要 在 生成 群体 智能 前 被 学 习 到 。 因 此 ，Arena 在 FS 中 提供 了 了 来 应 对 : 能量 损 耗 、 施 加 较 大 
力 的 惩罚 、 保 持 稳定 速度 的 激励 和 朝向 目标 的 移动 距离 等 。 


3. 竞争 的 BMaRSs (FP) 是 受 文献 (Cai et aL, 2011) 启发 的 方式 ， 定 义 为 









































































































































































































































天 CE = f; :f¢ FU FB and Vk € K, Va € X, Vr, € Hy, Vtg € Hy’, 


0 focx Rf da’ 
0 forex Ryda! o}, (17.3) 


OT. E 


421 


第 17 Arena: 多 智能 体 强化 学 习 平 台 




















上 式 直观 上 意味 着 对 于 任何 智能 体 ze *， 采 用 任何 可 能 的 策略 m. € 了 ,， 所 有 智能 体 在 片段 内 
奖励 的 求 和 是 不 变 的 。 如 果 片 段 长 度 为 1， 它 表示 典型 的 多 玩家 零 和 游戏 (Cai et al., 2011). 

关于 FO 中 f RAHTI O) 智能 体 需 要 为 有 限 的 资源 斗争 ， 而 这 些 资源 在 片段 结束 后 
通常 会 耗 尽 ， 智 能 体会 为 它 所 得 到 的 资源 受到 奖励 : (2) 斗争 一 直到 结束 生命 ， 奖 励 根据 生命 
结束 的 顺序 来 给 出 (奖励 也 可 以 基于 相反 的 顺序 ， 从 而 离开 游戏 的 一 方 首先 接受 最 高 的 奖励 ， 比 
如 在 一 些 扑克 游戏 中 ， 首 先 打 出 所 有 有 牌 的 一 方 获胜 )。 标 准 形式 CNormal-Form) 游戏 (Myerson, 
2013) HAY 3E 77 4k AR (Rock, Paper, and Scissors) 和 (Balduzzi et al., 2019) 中 循环 游戏 (Cyclic 
Game) 都 是 FO 的 特殊 情况 。 

4. 合作 的 BMaRSs (FOL) 是 由 文献 (Cai et al., 2011) 启发 的 方式 ， 定 义 为 












































































































































































































































FOL = f; : f EFM UF and Vk € K, Yx € X,Va' € X \ {x}, Vm, € IL, 


f 
Vra € Hy, ORD 2. (17.4) 
ari 











上 式 直观 上 意味 着 对 任何 一 对 智能 体 (z',z) 都 没有 利益 冲突 CORE /ORL < 0)。 除 此 之 外 ， 由 于 
jg&FNLUTFS， 至 少 有 一 对 智能 体 (x, zx 人 ) 使 得 ORE /ORL > 0。 该 式 意味 着 这 对 智能 体 有 共同 利 
益 ， 从 而 对 智能 体 x 其 Rf 的 提高 也 会 造成 智能 体 z' RL 提高 。 最 常见 的 关于 天 cz 中 了 的 例 
子 是 对 于 所 有 xc X 的 fo 都 是 相等 的 ， 比 如 ， 一 个 物体 的 移动 距离 可 以 由 多 个 智能 体 的 共同 努 
力 来 推动 ， 或 者 一 个 群体 的 存活 时 长 (只 要 群体 内 有 一 个 个 体 是 存活 的 ， 群 体 就 是 存活 的 )。 
Jb, Arena 在 FC” 中 提供 了 了 来 应 对 : 队伍 存活 时 间 〈 正 值 或 负 值 ， 因 为 一 些 游戏 需要 队伍 尽 可 
能 久 地 存活 ， 而 其 他 一 些 游戏 需要 队伍 尽 可 能 早 地 消失 ， 比 如 扑克 中 的 纸牌 等 。 
5. 竞争 和 合作 混合 型 的 BMaRSs (FOO) 定义 为 任何 以 上 四 种 之 外 的 情况 。 
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Pa pee P EL (17.5) 

















首先 , 17.3) P a fey Rode! Om, =0 WWE fey ORL /ORÍda! = 0( 证 明 在 这 里 不 提 
供 ， 可 以 参考 原文 )， 这 是 式 (07.3) 的 另 一 种 表示 。 考 虑 式 (07.3) 中 的 FP 和 式 17.5) 中 的 FOL, 
对 FCC 的 一 个 直观 的 解释 是 ， 存在 ORI, JORE < 0 的 情形 ,， 即 智能 体 在 这 时 是 竞争 的 。 但 是 对 整 
本 利益 的 导数 fey ORL /ORÍda! 不 总 是 为 0。 因 此 ， 整 体 利益 可 以 用 具体 的 策略 来 最 大 化 ， 即 
智能 体 在 这 时 是 合作 的 。 

除了 在 每 个 BMaRS 提供 了 几 个 实际 的 f, Arena 也 对 每 个 BMaRS 提供 了 一 个 验证 选项 ， 即 
可 定制 f 并 使 用 这 个 验证 选项 来 确保 编写 的 f 属于 一 个 具体 的 BMaRS。 

上 面 的 内 容 提 供 了 关于 如 何 使 用 不 同类 别 奖励 函数 来 定义 社会 关系 的 理论 。 此 外 ， 奖 励 函 
数 应 当 根 据 上 面 定 义 的 类 别 来 实现 预期 的 群体 中 的 社会 关系 。 实 践 中 ， 奖 励 函 数 有 一 些 具 体形 
式 ， 如 我 们 在 之 前 小 节 中 提 到 的 。Arena 框架 通常 在 GlobalManager 的 Arena Node 中 定义 了 
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Collaborative 和 Competitive 的 奖励 函数 ， 而 Isolated 奖励 函数 定义 在 像 BasicAgent 的 智能 体 的 
Arena Node 中 。 

这 里 是 一 个 便于 理解 社会 树 关 系 的 例子 ， 这 个 树 中 每 个 Arena Node 使 用 了 不 同 的 BMaRs， 
如 图 17.181 所 示 。 奖 励 机 制 被 指定 到 各 个 Arena Node 来 定义 它 的 子 节点 的 社会 关系 。 图 17.18(a) 
中 的 图 形 用户 界 面 (Graphical User Interface, GUI) 定义 了 图 17.18(b) 中 的 树 结构 ， 用 来 表示 一 
个 有 四 个 智能 体 的 群体 。 这 个 树 结构 可 以 通过 在 图 17.18(a) 的 GUI 中 拖 上 忠 、 复 制 或 删除 来 进行 简 
单 设 置 。 在 这 个 例子 中 ， 每 个 智能 体 有 个 体 层面 的 BMaRS。 知 能 体 是 一 个 机 器 蚂蚁 ， 而 其 个 体 
级 别 的 BMaRSs 是 FS， 具 体 来 说 ，ant-motion 的 选项 使 得 学 习 朝 向 基本 的 运动 技巧 ， 比 如 向 前 
移 等 进行 ， 如 图 17.18(c) 所 示 。 每 两 个 智能 体 构成 一 个 队伍 《一 个 智能 体 或 队伍 的 集合 )， 而 这 
两 个 智能 体 有 队伍 层面 的 BMaRSs。 在 这 个 例子 中 ， 两 个 机 器 蚂蚁 互相 合作 来 推动 盒子 前 进 ， 如 
图 17.18(d) 所 示 。 因 此 ， 队 伍 层 面 的 BMaRSs 是 Cr， 具体 来 说 ， 是 推动 盒子 的 距离 。 在 两 个 队 
伍 之 上 ，Arena 有 全 局 的 BMaRSs。 在 这 个 例子 中 ， 两 个 队伍 被 设 定 为 有 一 场 关于 哪个 队伍 先 将 
盒子 推 向 目标 点 的 竞赛 ， 如 图 17.18(e) 所 示 。 因 此 ， 全 局 的 BMaRSs 是 FP, RKRN, AKA 
子 推 到 目标 的 先后 次 序 。 应 用 到 每 个 智能 体 的 最 终 奖 励 函 数 是 以 上 三 个 层次 的 BMaRSs 的 加 权 
求 和 。 我 们 也 可 以 想象 如 何 来 定义 一 个 超过 三 个 层次 的 社会 树 ， 其 中 小 的 队伍 组 成 大 的 队伍 ,在 
每 个 节点 定义 的 BMaRSs 给 出 更 加 复杂 和 结构 化 的 社会 关系 。 在 定义 了 社会 树 并 在 每 个 节点 使 
H J BMaRSs 之 后 ， 环 境 便 可 以 使 用 了 。 其 抽象 层 可 以 解决 其 他 问题 ， 比 如 ， 为 窗口 中 的 每 个 智 
能 体 分 配 视图 、 添 加 队伍 颜色 、 展 示 智 能 体 ID 并 生成 一 个 从 上 到 下 的 视野 等 。 
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(a) (b) 
图 17.18 在 Arena 对 每 个 Arena Node 使 用 不 同 BMaRs 定义 的 社会 树 ( 见 彩 插 ) 














此 外 ， 我 们 可 以 简单 拓展 上 述 框架 到 其 他 常见 社会 关系 ， 如 图 17.19? 所 示 。 


更 多 预制 智能 体 


除了 之 前 的 BasicAgent，Arena 也 有 其 他 更 高 级 的 预制 智能 体 可 以 直接 使 用 ， 如 图 17.20 所 
示 。 其 他 智能 体 的 使 用 基本 与 BasicAgent 类 似 ， 通 过 拖 遇 并 将 它 附 于 GlobalManager 之 下 。 唯 
一 的 不 同 在 于 动作 空间 ， 你 需要 改变 相应 的 控制 大 脑 (Brain? 来 控制 不 同 的 智能 体 。 举 例 来 说 ， 
1 图 片 来 源 : Song, Yuhang, et al. "Arena: A General Evaluation Platform and Building Toolkit for Multi-Agent Intelligence." 
arXiv preprint arXiv: 1905.08085 (2019). 


2 图 片 来 源 : Song, Yuhang, et al. "Arena: A General Evaluation Platform and Building Toolkit for Multi-Agent Intelligence." 
arXiv preprint arXiv:1905.08085 (2019). 
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图 17.19 Arena 框架 下 定义 的 常见 社会 关系 





Assets > ArenaSDK > AgentPrefabs > 





图 1720 Arena 中 不 同 的 预制 智能 体 








图 17.21 场景 中 的 ArenaCrawlerAgent ( 见 彩 插 ) 





预制 智能 体 中 的 ArenaCrawlerAgent 如 图 17.21 所 示 ， 它 有 连续 的 动作 空间 来 控制 关节 的 动 
作 值 。 为 了 恰当 地 使 用 这 个 智能 体 ， 我 们 需要 改变 ArenaCrawlerAgent 大 脑 为 图 17.22 所 示 的 
ArenaCrawlerPlayerContinuous (PlayerBrain)。 随后 这 个 游戏 可 以 导出 并 用 作 一 般 的 游戏 来 使 用 。 








17.2.4 ”导出 二 进 制 游戏 


当 你 在 Unity 中 的 玩家 模式 下 测试 了 游戏 之 后 ， 确 保 游戏 设置 没有 任何 问题 ， 就 可 以 将 游戏 
导出 为 一 个 独立 的 三 进 制 文件 ， 并 用 它 与 Python 脚本 训练 MARL 算法 。 这 一 小 节 展 示 了 如 何 导 
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。 首 先 ， 我 们 需要 将 大 脑 的 类 型 从 PlayerBrain 改 为 一 个 相应 的 LearningBrain (同样 类 型 )， 
PlayerBrain 被 用 于 通过 用 户 键盘 操 作 来 控制 游戏 智能 体 ， 而 LearningBrain 可 以 用 学 习 算 
法 来 直接 控制 。 如 图 17.23 所 示 ， 对 于 这 个 游戏 ， 我 们 改变 GeneralPlayerDiscrete (Player- 
Brain) 为 图 17.24 中 的 GeneralLearnerDiscrete (LearningBrain)。 我 们 也 需要 取消 勾 选 De- 


bugging 来 减少 训练 中 的 输出 信息 。 








图 17.22 为 ArenaCrawlerAgent 更 改 大 脑 











图 17.24 ”更 改 控制 大 脑 类 型 为 LearningBrain 来 导出 训练 游戏 
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。 为 了 导出 游戏 ， 我 们 选择 File->Build Settings， 相 应 得 到 一 个 如 图 17.25 所 示 的 窗口 。 通 过 


这 个 窗 





口 ， 我 们 可 以 设置 Target Platform 和 Architecture。 


。 我 们 也 需要 单 击 Player Settings 来 检查 其 他 设置 ， 如 图 17.26 所 示 。 一 个 需要 注意 的 点 是 : 


Display Resolution Dialog 需要 设 为 Disabled 来 正常 工作 。 随 后 我 们 回 到 之 前 的 窗 


Build， 这 样 就 可 以 在 创建 游戏 之 后 得 到 其 二 进 制 文件 。 
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Resolution and Presentation 
Resolution 
Fullscreen Mode 
Default Is Native Resolution 
Mac Retina Support 
Run In Background* 


Standalone Player Options 
Capture Single Screen 
Display Resolution Dialog 
Use Player Log 
Resizable Window 
Visible In Background 
Allow Fullscreen Switch 
Force Single Instance 

> Supported Aspect Ratios 





图 17.25 


* Shared setting between multiple platforms. 


Al 17.26 





检查 创建 游戏 的 设置 














设置 游戏 导出 的 窗口 





口 并 单 击 


17.3 MARL 训练 





17.3 MARL 训练 








^H Y Hi Arena 构建 并 导出 的 独立 (Standalone) 游戏 ， 我 们 可 以 设置 训练 过 程 来 研究 多 智能 
体 强 化 学 习 (Multi-Agent Reinforcement Learning, MARL) 中 的 各 种 问题 。 

在 开始 训练 之 前 ， 我 们 需要 先 配置 系统 。 由 于 MARL 一 般 需 要 大 量 的 计算 ， 我 们 通常 需要 
一 个 服务 器 来 应 对 训练 过 程 。Arena 环境 的 基本 设置 遵循 17.1 节 中 的 内 容 。 如 果 你 在 服务 器 上 
不 能 正常 使 用 X-Server， 那 么 可 以 遵循 以 下 部 分 内 容 来 设置 虚拟 显示 ， 否 则 可 以 直接 跳 过 该 部 分 
到 训练 小 节 。 
















































































— 
















































































17.3.1 设置 X-Server 
使 虚拟 显示 的 基本 设置 如 下 : 























# 安装 Xorg 
sudo apt-get update 
sudo apt-get install -y xserver-xorg mesa-utils 


sudo nvidia-xconfig -a --use-display-device=None --virtual=1280x1024 


# 获得 BusID 信息 


nvidia-xconfig --query-gpu-info 


# 添加 BusID 信息 到 你 的 /etc/X11/xorg.conf 文件 
sudo sed -i 's/ BoardName "GeForce GTX TITAN X"/ BoardName "GeForce GTX TITAN X"\n 
BusID "0:30:0"/g' /etc/X11/xorg. conf 





# 从 /etc/X11/xorg.conf 文件 中 移 除 小 节 "Files" 
# 并 且 移 除 包含 小 节 "Files" 和 EndSection 的 两 行 


sudo vim /etc/X11/xorg.conf 


# Xj Ubuntu 下 载 和 安装 最 新 的 Nvidia 驱动 器 
wget 

http: //download.nvidia.com/XFree86/Linux-x86_64/390.87/NVIDIA-Linux-x86_64-390.87.run 
sudo /bin/bash ./NVIDIA-Linux-x86_64-390.87.run --accept-license --no-questions 


--ui-none 





# 禁用 Nouveau， 因 为 它 会 使 Nvidia 驱动 器 崩溃 
sudo echo ’blacklist nouveau’ | sudo tee -a /etc/modprobe.d/blacklist.conf 


sudo echo ’options nouveau modeset=0’ | sudo tee -a /etc/modprobe.d/blacklist.conf 
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sudo echo options nouveau modeset=0 | sudo tee -a /etc/modprobe.d/nouveau-kms.conf 


sudo update-initramfs -u 


sudo reboot now 








用 以 下 三 种 方式 《不同 的 方式 可 能 在 不 同 的 Linux 版 本 上 运行 ) 之 一 关闭 Xorg: 





# 方式 1: 运行 以 下 命令 并 运行 这 个 命令 的 输出 

ps aux | grep -ie Xorg | awk ’{print "sudo kill -9 " $2}’ 
# AK 2: 运行 以 下 命令 

sudo killall Xorg 
# 方式 3: 运行 以 下 命令 


sudo init 3 











用 该 命令 开启 虚拟 显示 : 








sudo ls 
sudo /usr/bin/X :0 & 








你 应 当 可 以 看 到 虚拟 显示 正常 启动 ， 并 输出 以 下 内 容 : 








X.Org X Server 1.19.5 

Release Date: 2017-10-12 

X Protocol Version 11, Revision 0 

Build Operating System: Linux 4.4.0-97-generic x86_64 Ubuntu 

Current Operating System: Linux W5 4.13.0-46-generic 51-Ubuntu SMP Tue Jun 12 12:36:29 
UTC 2018 x86_64 

Kernel command line: BOOT_IMAGE=/boot/vmlinuz-4.13.0-46-generic.efi.signed 
root-UUID-5fdb5e18-f8ee-4762-a53b-e58d2b663dfl ro quiet splash nomodeset acpi-noirq 
thermal.off-1 vt.handoff-7 

Build Date: 15 October 2017 05:51:19PM 

xorg-server 2:1.19.5-Qubuntu2 (For technical support please see 
http://www .ubuntu.com/support) 

Current version of pixman: 0.34.0 
Before reporting problems, check http://wiki.x.org 
to make sure that you have the latest version. 

Markers: (--) probed, (**) from config file, (==) default setting, 
(++) from command line, (!!) notice, (II) informational, 


(WW) warning, (EE) error, (NI) not implemented, (??) unknown. 
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(==) Log file: "/var/log/Xorg.9.log", Time: Fri Jun 14 01:18:48 2019 
(==) Using config file: "/etc/X11/xorg.conf" 
(==) Using system config directory "/usr/share/X11/xorg.conf.d" 









































如 果 你 看 到 报错 ， 回 到 “用 以 下 三 种 方式 之 一 关闭 Xorg” 并 党 试用 另 一 种 方法 。 
在 新 窗口 中 运行 “Arena-Baselines” 之 前 ， 运 行 以 下 命令 来 将 一 个 虚拟 显示 端口 附 于 窗口 : 


H 









































export DISPLAY=:9 





17.3.2 ”进行 训练 
创建 TMUX 会 话 (如果 你 用 的 机 器 是 一 个 可 以 用 SSH 连接 的 服务 器 ) 并 进入 虚拟 环境 
























































tmux new-session -s Arena 


source activate Arena 





连续 动作 空间 
Arena 中 连续 动作 空间 的 游戏 列表 : 


* ArenaCrawler-Example-v2-Continuous 





* ArenaCrawlerMove-2T1P-v1-Continuous 

* ArenaCrawlerRush-2T1P-v1-Continuous 

* ArenaCrawlerPush-2T 1 P-v1-Continuous 

* ArenaWalkerMove-2T1P-v1-Continuous 

* Crossroads-2T1P-v1-Continuous 

* Crossroads-2T2P-v1-Continuous 

* ArenaCrawlerPush-2T2P-v1-Continuous 

* RunToGoal-2T1P-v1-Continuous 

* Sumo-2TIP-v1-Continuous 

* YouShallNotPass-Dense-2T1P-v1-Continuous 
运行 训练 命令 ,将 GAME NAME 用 上 面 的 游戏 名 替换 并 根据 你 所 用 计算 机 选择 合适 的 


num-processes (num-mini-batch 需 等 于 num-processes): 












































tmux new-session -s Arena 
CUDA VISIBLE DEVICES-8 python main.py --mode train --env-name GAME NAME --obs-type 
visual --num-frame-stack 4 --recurrent-brain --normalize-obs --trainer ppo 


--use-gae --lr 3e-4 --value-loss-coef 0.5 --ppo-epoch 10 --num-processes 16 
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--num-steps 2048 --num-mini-batch 16 --use-linear-lr-decay --entropy-coef 0 --gamma 


0.995 --tau 0.95 --num-env-steps 100000000 --reload-playing-agents-principle 


OpenAIFive --vis --vis-interval 1 --log-interval 1 --num-eval-episodes 10 


--arena-start-index 31969 --aux 0 





离散 动作 空间 


Arena 中 离散 动作 空间 游戏 列表 : 

* Crossroads-2T 1 P-v1-Discrete 

* FighterNoTurn-2T1P-v1-Discrete 

* FighterFull-2T1P-v1-Discrete 

* Soccer-2T1P-v1-Discrete 

* BlowBlow-2T1P-v1-Discrete 

* Boomer-2T1P-v1-Discrete 

* Gunner-2T1P-v1-Discrete 

* Maze2x2Gunner-2TI P-v1-Discrete 

* Maze3x3Gunner-2TIP-v1-Discrete 

* Maze3x3Gunner-PenalizeTie-2T1P-v1-D 
* Barrier4x4Gunner-2T 1 P-v1-Discrete 

* Soccer-2T2P-v1-Discrete 

* BlowBlow-2T2P-v1-Discrete 

* BlowBlow-Dense-2T2P-v1-Discrete 

* Tennis-2T 1 P-v1-Discrete 

* Tank-FP-2T1P-v1-Discrete 

* BlowBlow-Dense-2T 1 P-v1-Discrete 
运行 训练 命令 ， 将 GAME NAME HH | 





iscrete 





E INER EE PR IF ARG 





num-processes (num-mini-batch 需 等 于 num-processes ): 





居 你 所 用 计算 机 选择 合适 的 





CUDA_VISIBLE_DEVICES=0 python main.py --mode train --env-name GAME NAME --obs-type 


visual --num-frame-stack 4 --recurrent-brain --normalize-obs --trainer ppo 


--use-gae --lr 2.5e-4 --value-loss-coef 0.5 --ppo-epoch 4 --num-processes 16 


--num-steps 1024 --num-mini-batch 16 --use-linear-lr-decay --entropy-coef 9.01 


--clip-param 0.1 --num-env-steps 100000008 --reload-playing-agents-principle 


OpenAIFive --vis --vis-interval 1 --log-interval 1 --num-eval-episodes 10 


--arena-start-index 31569 --aux 0 
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你 也 可 以 改 用 其 他 MARL 算法 来 替代 上 面 的 PPO 去 测试 你 所 创建 的 游戏 。 




















17.3.3 ”可视化 
为 了 用 Tensorboard 可 视 化 分 析 训 练 过 程 的 学 习 曲 线 ， 运 行 : 





























source activate Arena && tensorboard --logdir ../results/ --port 8888 








并 访问 相应 端口 打开 Tensorboard 可 视 化 。 





17.3.4 “致谢 
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之 前 的 章节 向 读者 展现 了 深度 强化 学 习 的 主要 知识 点 、 强 化 学 习 算法 的 主要 类 别 和 算法 实 
现 ， 以 及 为 了 便于 理解 深度 强化 学 习 应 用 而 讲解 的 儿 个 实践 项 目 。 然而， 由 于 如 之 前 强化 学 习 的 
挑战 一 章 中 提 到 的 低 样 本 效率 、 不 稳定 性 等 问题 ， 初 学 者 想 要 较 好 地 部 署 这 些 算法 到 自己 的 应 用 
中 还 是 有 一 定 困难 的 。 因 此 ， 在 这 一 章 ， 从 数学 分 析 和 实践 经 验 的 角度 ， 我 们 细致 地 总 结 了 一 些 
在 深度 强化 学 习 应 用 实践 中 常用 的 技巧 和 方法 。 这些 方法 或 小 窍门 涉及 了 算法 实现 阶段 和 训练 调 
试 阶段 ， 用 来 帮助 读者 避免 陷入 一 些 实践 上 的 困境 。 这 些 经 验 上 的 技巧 有 时 可 以 产生 显著 效果 ， 
但 不 总 是 这 样 。 这 是 由 于 深度 强化 学 习 模型 的 复杂 性 和 敏感 性 造成 的 ， 而 有 时 需要 同时 使 用 多 个 
技巧 。 如 果 在 某 一 个 项 目 上 卡 住 时 ， 大 家 也 可 以 从 这 一 章 中 得 到 一 些 解决 方案 上 的 启发 。 



















































































































































































































































































18.1. 概览 : 如 何 应 用 深度 强化 学 习 


深度 学 习 通 常 被 认为 是 “ 黑 盒 ” 方 法 。 尽 管 它 实 际 上 并 不 是 “ 黑 盒 ”， 但 是 它 有 时 会 表现 得 
不 稳定 且 会 产生 不 可 预测 的 结果 。 在 深度 强化 学 习 中 ， 由 于 强化 学 习 的 基本 过 程 需要 智能 体 从 与 
环境 交互 的 动态 过 程 中 的 奖励 信号 而 不 是 标签 中 学 习 ， 这 个 问题 变 得 更 加 严重 。 这 是 与 有 监督 学 
习 的 情况 不 同 的 。 强 化 学 习 中 的 奖励 函数 可 能 只 包含 不 完整 或 者 局 部 的 信息 ， 而 智能 体 使 用 自 举 
(Bootstrapping) 学习 方法 时 往往 在 追逐 一 个 变化 的 目标 。 此 外 ,深度 强化 学 习 中 经 常用 到 不 止 一 
个 深度 神经 网 络 ， 尤 其 是 在 那些 较为 高 等 或 者 最 近 提 出 的 方法 中 。 这 都 使 得 深度 强化 学 习 算 法 可 
能 表现 得 不 稳定 且 对 超 参数 敏感 。 以 上 问题 使 得 深度 强化 学 习 的 研究 和 应 用 困难 重重 。 由 于 这 个 
原因 ， 我 们 在 这 里 介绍 一 些 实现 深度 强化 学 习 中 常用 的 技巧 和 建议 。 
首先 ， 你 需要 知道 一 个 强化 学 习 算 法 是 否 可 以 用 于 解决 某 一 个 特定 的 问题 ， 而 且 显然 不 是 每 
个 算法 都 对 所 有 任务 适用 。 我 们 经 常 需要 仔细 考虑 强化 学 习 本 身 是 否 可 以 用 于 解决 某 个 任务 。 总 
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体 来 说 ， 强 化 学 习 可 以 用 于 连续 决策 和 


个 


来 描述 或 近似 。 





























接 和 有 效 。 






























































DIKE, A 








了 标签 数据 的 预测 任务 通 
强化 学 习 任务 通常 包括 至 少 两 个 关键 要 素 : 


| 定 问题 ， 而 这 类 问题 通常 可 以 ) 























马尔 





可 夫 (Markov) 过 程 
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m 





不 需要 强化 学 习 算 法 ， 而 监督 学 习 方 法 可 能 更 直 

















(1) Shi, HREH 








| 一 个 策略 控制 ， 而 这 个 策略 是 通过 强化 学 习 训 练 得 到 的 。 








动态 过 程 和 奖励 信 
在 之 前 的 几 个 章节 












































强化 学 习 算法 被 用 来 解决 像 OpenAI Gym 这 类 环境 ! 
为 它们 已 经 被 设计 好 且 经 过 标 ; 

















需要 人 为 定义 环境 ， 并 运 | 

















] 强 化 学 习 算 法 去 使 


























的 任务 。 在 这 些 实验 中 ， 你 不 需要 过 多 关 
E 化 和 正则 化 。 然 而 ， 在 应 用 章节 中 介绍 的 儿 个 项 目 则 
智能 体 正常 工作 。 














总 的 来 说 ， 应 用 深度 强化 学 习 算 法 有 以 下 几 个 阶段 。 


1. 简单 测试 阶段 : 你 需要 使 
个 新 的 任 





如 果 是 











务 ， 用 它 来 探索 环境 C 


























Ju EGER T] 





E 和 准确 























性 有 高 置信 和 度 的 模型 ， 

















包括 强化 学 习 算 法 ， 











[至 使 用 
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上 
中 可 能 的 问题 ， 























改 的 延伸 ， 而 不 是 直接 使 




















或 者 至 少 让 






































尔 自己 熟悉 这 个 要 解 六 





























的 任务 ， 这 会 


随机 策略 ) 或 者 逐步 验证 你 将 在 最 终 模型 
一 个 复杂 的 模型 。 你 需要 快速 进行 实验 来 检测 环境 和 模型 基本 设置 

















给 你 在 之 后 的 过 程 ! 














提供 一 些 启 







































































































































































































































































发 ， 有 时 也 会 暴露 出 一 些 需要 考虑 的 极端 情况 。 

2. 快速 配置 阶段 : 你 应 该 对 模型 设置 做 快速 测试 ， 来 评估 其 成 功 的 可 能 性 。 如 果 有 错误 ， 尽 
可 能 多 地 可 视 化 学 习 过 程 ， 并 在 你 无 法 直接 从 数字 上 得 到 潜在 关系 的 时 候 使 用 一 些 统计 变量 ( 方 
差 、 均 值 、 平 均 差 值 、 极 大 极 小 值 等 )。 这 一 步 应 当 在 简单 测试 阶段 后 开始 ， 然 后 逐步 增加 新 模 
型 的 复杂 度 。 如 果 你 无 法 百分之百 确定 更 改 的 有 效 性 ， 你 应 当 每 一 次 都 进行 测试 。 

3. 部 署 训练 阶段 : 在 你 仔细 确认 过 模型 的 正确 性 后 ， 你 可 以 开始 大 规模 部 署 训练 了 。 由 于 深 
度 强化 学 习 往往 需要 较 大 量 的 样本 去 训练 较 长 时 间 ， 我 们 鼓励 你 使 用 并 行 训练 方式 、 使 用 云 服务 
器 《如果 你 自己 没有 服务 器 的 话 ) 等 ， 来 加 速 对 最 终 模型 的 大 规模 训练 。 有 时 这 一 阶段 是 和 第 二 
阶段 交 蔡 进行 的 ， 因 而 这 一 步 在 实践 中 可 能 会 花费 较 长 时 间 。 

在 下 面 几 个 小 节 中 ， 我 们 将 分 几 部 分 介绍 应 用 深度 强化 学 习 的 技巧 。 
18.2 ”实现 阶段 

。 从头 实 现 一 些 基本 的 强化 学 习 算 法 。 对 于 深度 强化 学 习 领 域 的 初学 者 而 言 , 从 头 实现 一 些 基 












































本 的 强化 学 习 算 法 并 调试 这 些 算法 直到 它们 最 终 正 确 运行 ,是 很 好 上 





























Critic $232: 2 MIA 











习 算 法 实现 ! 





复杂 的 大 规模 任务 ， 而 是 一 个 相对 简 























境 。 在 实现 这 些 基本 算法 的 时 候 ， 你 应 当 基 于 一 种 公 




















作为 一 种 基于 价值 函数 的 算法 ， 是 值得 去 自己 实现 的 。 连 续 动作 空间 、 
F 始 学 习 强 化 学 习 算 法 实现 时 很 好 的 选择 。 这 个 过 程 会 需要 你 理解 强化 学 
的 每 一 行 代码 ， 给 你 一 个 强化 学 习 过 程 的 整体 感觉 。 














的 练习 。Deep Q-Networks 


策略 梯度 和 Actor- 


刚 开 始 ， 你 不 需要 一 个 


单 的 可 以 快速 验证 的 任务 ， 比 如 那些 OpenAI Gym 环 





























的 结构 并 且 使 / 

















j 一 种 深度 学 习 框 架 





(比如 TensorFlow、PyTorch 等 )， 并 逐步 扩展 到 更 加 复杂 的 任务 上 ， 同 时 使 用 更 加 高 级 的 技 


术 《〈 比 如 优先 经 验 巨 















































项 目的 进程 。 
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放 等 )。 这 会 显著 地 加 速 你 随后 将 不 同 的 深度 强化 学 习 算 法 应 用 
到 一 些 问题 ， 你 可 以 参考 其 他 人 的 实现 方法 《〈 比 如 本 

















于 其 他 











18.2 ”实现 阶段 








书 提 供 的 强化 学 习 算 法 实现 指南 ) 或 者 通过 网 络 查找 你 遇 到 的 问题 。 绝 大 多 数 问题 都 已 经 
被 他 人 所 解决 。 
。 适 当地 实现 论文 细节 。 在 你 熟悉 了 这 些 基本 的 强化 学 习 算法 后 ， 就 可 以 开始 实现 和 测试 一 
些 在 文献 中 的 方法 。 通 常 强化 学 习 算法 的 研究 论文 中 包含 很 多 实现 细节 ， 而 有 时 这 些 细节 
在 不 同 论文 中 不 是 一 致 的 。 所以， 当 你 实现 这 些 方法 的 时 候 , 不 要 过 拟 合 到 论文 细节 上 , 而 
是 去 理解 论文 作者 为 何在 这 些 特定 情形 下 选择 使 用 这 些 技巧 。 举 一 个 典型 的 例子 ， 在 多 数 
文章 中 ， 实 验 部 分 中 神经 网 络 的 结构 细节 包括 隐藏 层 的 维 数 和 层 数 、 各 个 超 参 数 的 数值 等 。 
这 些 都 或 在 论文 主体 、 或 在 补充 材料 中 提 到 。 你 不 需要 在 自己 的 实现 版 本 中 严格 遵循 这 些 
实现 细节 ， 而 且 你 很 可 能 甚至 跟 原文 用 不 一 样 的 环境 来 对 方法 进行 测试 。 比 如 ， 在 深度 决 
定性 策略 梯度 (Deep Deterministic Policy Gradient) 算法 的 论文 中 ， 作 者 建议 使 用 Ornstein- 
Uhlenbeck (OU) 噪声 来 进行 探索 。 人 然而， 实践 中 ， 有 时 很 难说 OU 噪声 是 否 比 高 斯 噪声 更 
好 ， 而 这 往往 在 很 大 程度 上 依赖 于 具体 任务 。 男 一 个 例子 是 ， 在 Vinyals et al. (2019) 关于 
AlphaStar 的 工作 中 ，Vanilla TD(A) 方法 被 证 实 比 其 他 更 高 级 的 离线 策略 (Off-Policy) 修正 
方法 V-Trace (Espeholt et al., 2018) 更 有 效 。 因 此 ， 如 果 这 些 技巧 不 足够 通用 ， 那 么 它们 可 
能 不 值得 你 花 精 力 去 实现 。 相 比 而 言 ， 一 些微 调 方法 可 能 对 具体 任务 有 更 好 的 效果 。 然 而 ， 
如 上 所 述 ， 理 解 作 者 在 这 些 情 况 下 为 何 使 用 这 些 技巧 则 是 更 关键 和 有 意义 的 。 当 你 采取 论 
文中 的 某 些 想法 并 将 其 应 用 到 你 自己 的 方法 中 时 ， 这 些 建 议 可 能 更 有 意义 ， 因 为 有 时 对 于 
你 自己 的 具体 情况 ， 可 能 不 是 论文 中 的 主要 想法 ， 而 是 某 些 具体 技巧 或 操作 对 你 帮助 最 大 。 
。 如 果 你 在 解决 一 个 具体 任务 ， 先 探索 一 下 环境 。 你 应 当 检 查 一 下 环境 的 细节 ， 包 括 观察 量 
和 动作 的 性 质 ， 如 维度 、 值 域 、 连 续 或 离散 值 类 型 等 。 如 果 环 境 观 察 量 的 值 在 一 个 很 大 的 
9 效 范 围 内 或 者 是 未 知 范围 的 ， 你 就 应 该 把 它 的 值 归 一 化 。 比 如 ， 如 果 你 使 用 Tanh 或 者 
Sigmoid 作为 激活 函数 ， 较 大 的 输入 值 将 可 能 使 第 一 个 隐藏 层 的 节点 饱和 ， 而 这 训练 开始 时 
将 导致 较 小 的 梯度 值 和 较 慢 的 学 习 速 度 。 此 外 ， 你 应 当 为 强化 学 习 选 择 好 的 输入 特征 ， 这 
些 特征 应 当 包 含 环境 的 有 用 信息 。 你 也 可 以 用 能 进行 随机 动作 选取 的 智能 体 来 探索 环境 并 
可 视 化 这 个 过 程 ， 以 找到 一 些 极端 情况 。 如 果 环 境 是 你 自己 搭建 的 ， 这 一 步 可 能 很 重要 。 

。 给 每 一 个 网 络 选取 一 个 合适 的 输出 激活 函数 。 你 应 当 根 据 环境 来 对 动作 网 络 选择 一 个 合适 
的 输出 激活 函数 。 比 如 , 常用 的 像 ReLU 可 能 从 计算 时 间 和 收敛 表现 上 都 对 隐藏 层 来 说 可 以 
很 好 地 工作 ， 但 是 它 对 有 负 值 的 动作 输出 范围 来 说 可 能 是 不 合适 的 。 最 好 将 策略 输出 值 的 
范围 跟 环 境 的 动作 值 域 匹配 起 来 ， 比 如 对 于 动作 值 域 (-1,1) 在 输出 层 使 用 Tanh 激活 函数 。 
从 简单 例子 开始 逐渐 增加 复杂 度 。 你 应 当 从 比较 清晰 的 模型 或 环境 开始 测试 ， 然 后 逐步 增 
加 新 的 部 分 ， 而 不 是 一 次 将 所 有 的 模块 组 合 起 来 测试 和 调试 。 在 实现 过 程 中 不 断 进 行 测试 ， 
除非 你 是 这 个 领域 的 专家 并 且 很 幸运 ， 否 则 你 不 应 当期 望 一 个 复杂 的 模型 可 以 一 次 实现 成 
功 并 得 到 很 好 的 结果 。 
。 从 密集 奖励 函数 开始 。 奖 励 函 数 的 设计 可 以 影响 学 习 过 程 中 优化 问题 的 凸 性 ， 因 此 你 应 当 
从 一 个 平滑 的 密集 奖励 函数 开始 尝试 。 比 如 ， 在 第 16 章 中 定义 的 机 器 人 抓 取 任务 中 ， 我 们 
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抓 取 了 目标 物体 ， 而 在 没 
选择 合适 的 网 络 结构 。 尽 管 在 深度 学 习 
尤其 在 像 计算 机 视觉 (He et al., 2016) 和 自然 语言 处 理 (Jaderberg et al., 2015) 领域 。 对 





用 一 个 密集 奖励 函数 来 天 











F 始 机 器 人 学 习 ， 这 个 函数 是 从 机 器 人 夹 
负数 。 这 可 以 保证 值 函数 网 络 和 策略 网 络 能 够 在 一 个 较为 光滑 的 超 3 


























到 目标 物体 























地 加 速 学 习 过 程 。 一 个 稀疏 奖励 可 以 被 定义 为 一 个 简单 的 二 值 变 
额外 信息 的 情况 下 这 对 机 器 人 来 说 可 能 很 难 进 行 探索 和 学 习 。 















































经 常见 到 























强化 学 习 而 
特别 常见 。 
模 而 且 你 有 几 - 
个 10 层 及 以 上 
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深度 强化 学 习 由 了 








这 是 
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经 网 络 深度 通常 不 会 太 深 ， 超 过 5 层 的 神经 
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于 强化 学 习 算法 本 身 的 计算 复杂 度 造成 的 。 


K| 











个 有 几 十 层 网 络 和 
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里 ， 

















数 十 亿 参 数 的 


之 间距 离 的 





F 面 上 优化 ， 从 而 显著 
] 来 表示 机 器 人 是 否 
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络 ， 


于 深度 














络 在 强化 学 习 
此 ， 除 非 环 境 














应 用 中 




















不 是 


有 很 大 的 规 











FEE GPU 或 者 TPU 可 以 使 用 ， 否 则 你 一 般 不 会 在 深度 强化 学 习 中 用 一 





的 














如 果 网 络 相 比 于 数据 而 言 足 够 大 ， 它 可 
能 只 是 缓慢 地 收敛 甚至 是 发 散 ， 这 是 
经 常 是 依据 环境 状态 空间 和 动作 空间 而 定 的 。 
以 用 一 个 表格 方法 ， 或 者 一 个 单 层 或 两 层 的 神经 网 络 解决 。 更 复杂 的 例子 如 第 13 章 和 第 
章 中 介绍 的 应 





可 
16 
































网 络 ， 它 的 训练 将 会 





E 常 困难 


























E。 这 不 仅 是 计算 资源 上 的 限于 











l, 























缺失 监督 信号 而 导致 的 不 稳定 性 和 非 单 调 表现 增长 有 关 。 在 














， 通 常 有 几 十 维 的 连续 状态 和 动作 空间 ， 这 就 需要 可 能 大 于 








但 是 相 比 了 
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At 

















其 他 深度 学 习 领 域 中 的 











大 
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这 也 与 














KAR 2 
监督 学 习 中 ， 

















[以 过 拟 合 到 数据 集 上 ， 而 在 深度 强化 学 习 
为 探索 和 利用 之 间 的 强 关 联 作用 。 网 络 大 小 的 选择 
个 有 几 十 个 状态 动作 组 合 的 离散 环境 可 能 




















， 它 可 






































巨型 





于 网 络 的 结构 而 言 ， 文 献 中 很 常见 的 有 多 层 感 为 
经 网 络 (CNNs) 和 循环 神经 网 络 (RNNs)。 更 为 高 级 和 复杂 























对 模型 微调 方面 有 具体 要 求 或 者 一 些 其 他 特殊 情况 。 z 
咯 经 常 需要 一 个 卷 积 神经 网 络 主干 来 提前 提取 信息 ， 要 么 与 














感知 机 处 到 








E， 而 基于 视觉 的 和 集 








强化 学 习 算 法 一 起 让 
的 矢量 输入 和 高 给 





低 维 






































网 络 而 言 ， 这 仍旧 是 很 小 的 规模 。 
MAL (Multi-Layer Perceptrons, MLPs). 4$ 























个 低 维 的 

















的 网 络 结构 很 少 月 





3 层 的 网 络 ， 








矢量 输入 可 以 
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j 其 他 计算 机 视觉 的 方法 进行 预 训练 。 
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j， 实 践 中 通常 先 采 用 























马尔 可 夫 过 程 ， 
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各 和 价值 网 络 都 
羽 而 它们 的 
而 在 动作 预测 时 不 有 


能 需要 较 大 的 批 
现 稳定 的 进步 ， 而 非 在 学 习 上 









































主干 再 与 其 余 低 维 输入 并 联 的 方法 。 循 环 
最 优 的 动作 选择 不 仅 依赖 当前 状态 ， 而 且 
了 效 的 经 验 指导 。 有 时 策略 和 价值 网 络 可 能 构成 
状态 输入 是 不 同 的 ， 这 可 以 用 于 价值 
可 以 使 用 价值 网 络 的 情况 。 

熟悉 你 所 用 的 强化 学 习 算 法 的 性 质 。 举 例 来 说 ， 像 PPO 或 TRPO 类 的 基 了 
民 二 来 保证 安全 的 策略 进步 。 对 了 
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一 个 较 大 批 


尺寸 的 原 
到 的 批量 样本 计算 的 。 如 果 批 
导致 对 Fisher 17 BA 
中 ， 算 法 TRPO 和 PPO : 
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青 况 ， 比 如 将 
提取 特征 
完全 可 观测 的 环境 或 者 非 
依赖 之 前 状态 。 以 上 是 实践 中 对 策 
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一 种 非 对 称 的 ActorCritic 
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策略 网 络 的 指导 ， 
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FF 这些 信赖 域 方法 ， 我 们 通常 期 待 策 
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线 上 某 些 位 置 突 然 有 较 大 下 降 。TRPO 等 信赖 域 方法 需要 用 
矩阵 ， 这 是 基于 当前 采样 
并 且 


问题 ， 

































































E 阵 (或 逆 Hessian 乘积 ) 的 近似 不 准确 而 使 学 习 表 现下 降 。 因 此 ， 实 上 践 


的 批 尺 寸 需要 被 增 大 ， 直 到 智能 体 有 稳定 进步 的 学 习 表现 为 止 。 


18.2 ”实现 阶段 





所 以 ，TRPO 有 了 时 也 无 法 较 好 地 扩展 到 大 规模 的 网 络 或 较 深 的 卷 积 4 
络 上 。DDPG 算法 则 通常 被 认为 对 超 参数 敏感 ， 尽 管 它 被 证 











很 有 效 。 当 把 
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它 应 用 到 大 规模 或 现实 任务 (Mahmood et al., 2018) 上 时 
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最 优 的 表现 效果 ， 但 是 在 现实 世界 : 
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此 DDPG 相 
SE DDPG 算法 起 初 是 设计 | 
况 下 工作 。 如 
些 额 外 的 技巧 ， 比 如 用 
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间 和 资源 上 的 PB 
TRPO 或 SAC 算法 可 
HEZ, XH 
果 你 尝试 将 它 应 用 到 有 离散 值 动 
TREK t (HY Sigmoid(ta) 输出 激活 








经 网 络 和 循环 神经 网 
连续 动作 空间 的 任务 
， 这 个 敏感 性 
过 彻底 的 超 参数 搜索 可 以 最 终 找到 一 个 
民 制 可 能 不 允许 这 种 
能 不 会 有 很 好 的 效果 。 另 一 方 








会 更 加 
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F 不 意味 着 它 不 能 在 离 
上 ， 那 么 需要 使 用 
且 将 其 修剪 成 二 值 化 





























的 输出 ， 还 得 保证 这 个 截断 误差 比较 
一 个 类 别 的 输出 分 布 。 
过 缩放 而 不 是 改变 均值 
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确定 性 输出 为 





归 一 化 值 处 理 。 总 体 来 说 ， 你 需要 通 i 
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\， 或 者 你 可 以 直接 使 用 
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“Done=True” 信 号 在 最 大 片段 长 度 以 
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影响 到 


那么 ,你 可 以 使 | 


值 缩 放 《〈 即 除 以 标准 差 ) 而 不 做 均值 平移 〈 为 得 到 零 均值 而 减 去 统 i 
这 实际 上 与 整个 奖 
适用 于 你 使 用 “Done” 信 号 的 情况 。 其 实 ， 如 果 你 事先 没有 用 
考虑 以 下 一 种 情况 ， 如 
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Gumbel-Softmax 技巧 来 更 改 






































| 练 中 采样 的 批 样本 。 
十 均值 ) 的 原因 是 ， 均 
励 函 数 的 正 负 号 有 关 ， 而 且 这 
“Done” 信 号 来 终 
能 体 经 历 了 一 个 片段 , 而 
内 发 生 ， 那 么 假如 我 们 认为 智能 体 仍 旧 存 活 ， 则 这 个 








只 做 




















“Done” 信 号 之 后 的 奖励 值 实际 为 0。 如 果 这 些 为 0 的 奖励 值 总 体 上 比 之 前 的 奖励 值 高 〈 即 


之 前 的 奖励 值 基本 是 负数 )， 那 么 智能 体会 倾向 于 尽 可 能 早 















































内 的 奖励 。 相 
我 们 对 奖励 值 








反 ， 如 果 之 前 的 奖励 函数 基本 是 正 值 ， 
采取 均值 平移 方式 ， 它 会 打破 以 上 情形 
体 即使 在 奖励 值 基本 为 正 时 不 会 选择 存活 得 更 久 ， 而 这 会 
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数 的 目标 也 是 相似 的 情况 。 举 例 来 说 ， 一 些 基于 DON 
意外 地 不 断 增 大 ， 而 这 是 
以 缓解 这 个 问题 ， 或 者 使 用 3 
一 个 关于 折扣 因子 的 小 提示 。 你 可 以 根据 折 # 





个 大 致 感觉 : 


100 个 时 间 步 后 的 奖励 。]} 
Done 信号 只 在 终止 状态 时 为 真 。 对 于 初学 者 来 说 ， 深 度 强化 学 习 ! 
微 差别 ， 而 片段 式 强化 学 习 中 的 “Done” 信 号 就 是 其 中 一 个 。 
即使 是 相同 算法 的 不 同 实 现 也 会 有 截然 不 同 的 表现 。 在 片段 式 强化 学 习 
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其 他 的 技巧 如 Double Q-Learning。 
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地 结束 片段 ， 以 最 大 化 整个 片段 
会 选择 “ 活 ”得 更 久 一 些 。 
能 体 的 存活 意愿 ， 从 而 使 得 知 
响 训 练 中 的 表现 。 归 一 化 值 函 
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y+ ves =1/(1—7). RHA, 对 于 7y = 0.99， 我 们 经 常 可 以 忽略 























j 这 个 小 技巧 可 以 加 速 你 设置 参数 时 的 过 程 。 
有 一 些 很 容易 忽略 的 细 
微 的 差异 可 能 使 得 实 
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号 被 广泛 用 于 结束 一 个 片段 ， 而 它 是 环境 状态 的 一 个 函数 ， 
就 被 设置 为 真 。 
要 么 失败 ， 而 不 是 任意 一 个 到 达 时 间 限 度 或 最 大 片段 长 度 的 状态 。 将 “Done” 信 号 的 值 








MY 
1H 
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在 状态 为 终止 状态 时 设 为 真 不 是 一 个 平 良 的 问题 。 举 例 来 说 ， 如 果 一 个 任务 是 操控 机 械 臂 
到 达 空 间 中 某 个 具体 的 位 置 ， 这 个 “Done” 信 号 只 应 当 在 机 械 辟 确实 到 达 这 个 位 置 时 为 真 ， 
而 不 是 到 达 默 认 片 段 最 大 长 度 等 情况 下 。 为 了 理解 这 个 差异 ， 我 们 需要 知道 在 强化 学 习 中 
有 些 环境 ， 时 间 长 度 是 无 穷 的 ， 有 些 是 有 限 的 ， 而 在 采样 过 程 中 ， 算 法 经 常 是 对 有 限 长 度 
的 轨迹 做 处 理 的 。 有 两 种 常用 的 实现 方式 ， 一 是 设置 最 大 片段 长 度 ， 二 是 使 用 “Done” 信 
号 作为 环境 的 反馈 来 通过 跳 开 循环 以 终止 片段 。 当 使 用 “Done” 信 号 作为 采样 过 程 中 的 中 
断 点 时 ， 它 不 应 当 在 片段 由 于 到 达 最 大 长 度 的 时 候 设 为 真 ， 而 只 应 在 终止 状态 到 达 时 为 真 。 
还 是 前 面 的 例子 ， 若 一 个 机 械 辟 在 非 目 标点 的 任意 其 他 点 由 于 到 达 了 片段 最 大 长 度 而 结束 
了 这 个 轨迹 ,同时 设置 了 “Done” 信 号 为 真 ， 则 会 对 学 习 过 程 产生 消极 影响 。 具 体 来 说 ， 以 
PPO 算法 为 例 ， 从 状态 S, 累计 的 奖励 值 被 用 来 估计 该 状态 的 价值 V(5,)， 而 一 个 终止 状态 
的 价值 为 0。 如果 在 非 终 止 状态 时 “Done” 信 号 的 值 为 真 ， 那 么 该 状态 的 值 被 强制 设 为 0 
了 ， 而 实际 上 它 可 能 不 应 该 为 0。 这 会 在 价值 网 络 估计 之 前 状态 值 的 时 候 让 其 产生 混淆 ， 从 
而 阻碍 学 习 过 程 。 
避免 数值 问题 。 对 于 编程 实践 中 的 除法 ， 如 果 使 用 不 当 可 能 会 产生 无 穷 大 的 数值 。 两 个 技 
巧 可 以 解决 这 类 问题 : 一 个 是 对 正 数值 的 情况 使 用 指数 缩放 a/b = exp(log(a) —log(b)); A 
个 方法 是 对 于 非 负 分 母 加 上 一 个 小 量 ， 如 a/b sa/( +1078). 
注意 奖励 函数 和 最 终 目标 之 间 的 分 歧 。 强 化 学 习 经 常 被 用 于 一 个 有 最 终 目标 的 具体 任务 ， 
而 通常 需要 人 为 设计 一 个 与 最 终 目 标 一 致 的 奖励 函数 来 便于 智能 体 学 习 。 在 这 个 意义 上 说 ， 
奖励 函数 是 目标 的 一 种 量化 形式 ， 这 也 意味 着 它们 可 能 是 两 个 不 同 的 东西 。 在 某 些 情况 下 
它们 之 间 会 有 分 歧 。 因 为 一 个 强化 学 习 智能 体能 够 过 拟 合 到 你 为 任务 所 设置 的 奖励 函数 上 ， 
而 你 可 能 发 现 训练 最 终 策 略 在 达成 最 终 目 标 上 与 你 所 期 望 的 不 同 。 这 其 中 一 个 最 可 能 的 原 
因 是 奖励 函数 和 最 终 目 标 之 间 的 分 歧 。 在 多 数 情 况 下 ， 奖 励 函 数 倾向 于 最 终 的 任务 目标 是 
容易 的 , 但 是 设计 一 个 奖励 函数 与 最 终 目标 在 所 有 极端 情况 下 都 始终 一 致 ,是 不 平庸 的 。 你 
应 该 做 的 是 尽 可 能 减少 这 种 分 歧 ， 来 保证 你 设计 的 奖励 函数 能 够 平滑 地 帮助 智能 体 达 到 最 
终 真实 目标 。 
奖励 函数 可 能 不 总 是 对 学 习 表 现 的 最 好 展示 。 人 们 通常 在 学 习 过 程 中 展示 奖励 函数 值 (有 
时 用 移动 平均 ， 有 时 不 用 ) 来 表示 一 个 算法 的 能 力 。 然 而 ， 如 同上 面 所 说 ， 最 终 目标 和 你 所 
定义 的 奖励 函数 之 间 可 能 有 分 歧 ， 这 使 得 一 个 较 高 奖励 的 状态 可 能 对 应 一 个 在 达成 最 终 目 
标 方面 较 差 的 情况 ， 或 者 至 少 没有 显 式 地 表现 出 该 状态 与 最 优 状态 之 间 的 关系 。 由 于 这 个 
原因 ， 我们 总 需要 在 使 用 强化 学 习 和 展示 结果 时 考虑 这 种 分 歧 的 可 能 性 。 所 以 ， 在 文献 (Fu 
et al., 2018) 中 很 常见 到 ， 有 的 学 习 表现 不 是 用 平滑 后 的 片段 内 奖励 (这 也 依赖 奖励 函数 的 
Wit) 来 评估 和 展示 的 ， 而 是 用 一 个 对 这 个 任务 更 具体 的 度量 方式 ， 比 如 图 18.1 所 示 的 机 
器 人 学 习 任 务 中 ， 用 机 器 夹具 跟 目 标点 的 距离 来 实现 位 置 到 达 或 用 物 块 跟 目 标的 距离 来 实 
现 物 块 推动 。 夹 具 与 物体 间 的 距离 ， 或 者 是 否 物 块 被 抓 取 ， 这 些 都 是 对 任务 目标 的 真实 度 
量 方式 。 所 以 ， 这 些 度量 可 以 用 来 展示 任务 学 习 效 果 ， 从 而 更 好 地 体现 任务 最 终 目标 是 否 
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18.2 ”实现 阶段 





到 达 。 这 对 于 最 终 目标 跟 人 为 设计 的 奖励 函数 有 偏差 的 情况 很 有 用 ， 如 果 你 想 比较 多 个 不 
同 个 奖励 函数 ， 那 么 这 些 额 外 的 度量 也 很 关键 。 

















18.1 OpenAl Gym 中 的 FetchPush 环境 。 对 这 个 环境 而 言 ， 使 用 物体 到 目标 位 置 的 最 终 距离 比 
奖励 函数 值 能 更 好 地 衡量 对 所 学 策略 的 表现 ， 因 为 它 是 对 任务 整体 目标 的 最 直接 表示 。 
然而 奖励 函数 可 能 被 设置 为 包含 一 些 其 他 因素 ， 如 夹具 到 物体 的 距离 等 ( 见 彩 插 ) 



































。 非 马尔 可 夫 情 况 。 如 之 前 章节 所 述 ， 这 本 书 所 介绍 的 绝 大 多 数理 论 结果 都 基于 马尔 可 夫 过 
程 的 假设 或 者 状态 的 马尔 可 夫 性 质 。 马 尔 可 夫 性 质 不 仅 简 化 了 问题 和 推导 ， 更 重要 的 是 它 
使 得 连续 决策 问题 可 以 描述 , 而 且 可 以 用 迭代 的 方式 解决 它 , 还 能 得 到 简洁 的 解决 方法 。 然 
而 ， 实 践 中 ， 马 尔 可 夫 过 程 的 假设 不 总 是 成 立 。 举 例 来 说 ， 如 图 18.2 所 示 ，Gym 环境 中 的 
Pong 游戏 就 不 满足 马尔 可 夫 过 程 在 智能 体 选取 最 优 动 作 时 对 状态 所 做 的 假设 。 我 们 需要 记 

住 马尔 可 夫 性 质 是 状态 或 环境 的 性 质 ， 因 此 它 是 由 状态 的 定义 决定 的 。 非 马尔 可 夫 决 策 过 

程 和 部 分 可 观测 马尔 可 夫 过 程 (POMDP) 的 差异 有 时 是 细微 的 。 比 如 ， 如 果 一 个 在 上 述 游 

戏 中 状态 被 定义 为 同时 包含 小 球 的 位 置 和 速度 信息 (假设 小 球 运动 没有 加 速度 )， 而 观察 量 
只 有 位 置 ， 那 么 这 个 环境 是 POMDP 而 不 是 非 马尔 可 夫 过 程 。 然 而 ，Pong 游戏 的 状态 通常 

被 认为 是 每 一 个 时 间 步 静态 帧 ， 那 么 当前 状态 只 包含 小 球 的 位 置 而 没有 智能 体能 够 做 出 最 

优 动作 选择 的 所 有 信息 ， 比 如 ， 小 球速 度 和 小 球 运动 方向 也 会 影响 最 优 动 作 。 所 以 这 种 情 

况 下 它 是 一 个 非 马 尔 可 夫 环 境 。 一 种 提供 速度 和 运动 方向 信息 的 方法 是 使 用 历史 状态 ， 而 

这 违背 了 马尔 可 夫 过 程 下 的 处 理 方法 。 所 以 ， 如 DQN (Mnih et al., 2015) EX, HEM WIRY UA 
以 一 种 近似 的 MDP 来 解决 Pong 任务 。 如 果 我 们 把 所 有 的 堆 又 帧 看 作 一 个 单一 状态 ， 并 且 

假设 堆 苹 帧 可 以 包含 做 出 最 优 动 作 选 择 的 所 有 信息 ， 那 么 这 个 任务 实际 上 仍旧 遵从 马尔 可 

夫 过 程 假设 。 毕 竟 在 所 有 的 模拟 环境 中 ， 过 程 都 是 离散 的 ， 而 不 像 现实 世界 中 ， 有 时 间 尺 

度 上 的 连续 性 ， 我 们 经 常 可 以 用 这 种 转化 方式 来 把 一 个 非 马尔 可 夫 过 程 看 作 一 个 马尔 可 夫 
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过 程 。 除 了 像 DQN 原文 中 使 用 堆 著 帧 ,循环 神经 网 络 CRNNO (Heess et al., 2015) 或 更 高 级 














的 长 短期 记忆 (STM) 方法 也 可 以 用 





于 以 历史 记忆 进行 决策 的 情况 , 来 解决 非 马尔 可 夫 过 





程 的 问题 。 








图 182 Gym 中 的 Pong-v0 游戏 : 由 于 小 球 的 速度 无 法 在 单一 帧 中 捕捉 ， 这 个 任务 是 非 马尔 可 夫 





B9, APB ine AME So DRE 


18.3 ”训练 和 调试 阶段 





。 初始 化 很 重要 。 深 度 强 化 学 习 方法 通 




















常 要 么 以 在 线 策略 〈On-Policy) 方式 用 每 个 片段 内 的 


样本 更 新 策略 ， 要 么 使 用 离线 策略 COff-Policy) 中 动态 的 回放 缓存 (Replay Buffer)， 这 个 


缓存 包含 随时 间 变 化 的 多 样 性 样本 。 








这 使 得 深度 强化 学 习 不 同 于 监督 学 习 ， 监 督学 习 是 从 


一 个 固定 的 数据 集中 学 习 ， 因 而 学 习 样本 的 顺序 不 是 特别 重要 。 然 而 ， 在 深度 强化 学 习 中 ， 


集 略 的 初始 化 可 以 影响 随后 可 能 的 探 
的 样本 ， 因 此 它 会 影响 整个 学 习 表现 


样本 ,这 对 于 训练 开始 阶段 是 很 好 的 。 但 随 着 策略 的 收敛 和 进步 , 探索 的 范围 逐渐 收 窜 ， 而 


近 趋 于 当前 策略 所 生成 的 轨迹 。 对 于 














索 范 围 ， 并 决定 存 入 缓存 的 后 续 样本 或 直接 用 于 更 新 
。 从 一 个 随机 策略 开始 会 导致 较 大 的 概率 有 更 多 样 的 























权重 参数 的 初始 化 而 言 ， 总 体 上 来 说 使 用 较 高 级 的 方 





法 如 Xavier 初始 化 (Glorot et al., 2010) 或 正 交 初始 化 (Saxe et al., 2013) 会 较 好 ， 这 样 可 以 避 
免 梯 度 消失 或 梯度 爆炸 ， 并 且 对 多 数 深度 学 习 情 况 都 有 较 稳 定 的 学 习 表现 。 


。 向 程序 中 添加 有 用 的 探 针 。 深 度 学 习 
是 我 们 可 能 不 总 清楚 ， 尤 其 是 当 我 们 





往往 要 处 理 大 量 的 数据 ， 而 这 其 中 有 一 些 隐藏 的 操作 
对 模型 不 熟悉 的 时 候 。 通 常 的 报错 系统 可 能 不 是 针对 











其 中 一 些 错 误 的 , 尤其 是 逻辑 错误 。 模型 中 类 似 的 潜在 问题 将 会 是 很 危险 和 难以 察觉 的 。 比 


n, 有 时 在 深度 强化 学 习 中 ,你 只 关注 





奖励 函数 , 但 是 也 应 当 可 视 化 损失 函数 值 的 变化 来 了 








解 其 他 函数 的 拟 合 情况 ,比如 价值 函数 , 或 者 随机 分 布 策 略 的 炳 来 了 解 当前 的 探索 状态 。 如 
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本 上 表明 智能 体 不 能 通过 当前 策略 探索 到 更 有 用 的 样 








18.3 


训练 和 调试 阶段 























A. 这 可 以 通过 使 
SAC) 等 算法 使 用 了 适应 性 炳 类 























HR IE KL 散 度 惩罚 项 来 缓解 ， WOR 




















自动 解决 这 类 问题 。 对 了 

















策略 间 KL 散 度 值 的 指标 来 告诉 你 模型 是 否 正常 工作 。 有 时 你 需要 输出 






































也 支持 PyTorch 框架 。 


些 探 针 很 有 帮助 。 


使 用 多 个 随机 种 子 并 计算 平均 值 来 减少 随机 性 。 深 度 强化 学 习 方法 很 : 


值 ， 要 么 是 没有 梯度 流 。 
上 情况 ，Tensorboard 模块 是 一 个 强大 的 工具 ， 它 起 初 是 为 TensorFlow 开 
它 可 以 简化 变量 的 可 视 化 过 程 、 














查 它 的 工作 情况 。 正 常 网 络 层 的 梯度 值 不 应 该 过 大 或 全 为 0 ， 否 则 它 表 明 要 么 有 异 














生 Actor-Critic (Soft Actor-Critic, 
于 信赖 域 的 方法 ， 你 需要 新 | 























网 络 的 梯度 值 来 检 
常 梯度 














其 他 有 














] 的 指标 有 像 在 输出 空间 和 参数 空间 的 



































A 


























经 网 络 计算 图 等 





更 新 步 长 ， 对 于 以 
发 设计 的 但 是 后 来 
， 对 实践 中 使 用 这 















































型 地 有 不 稳定 的 训 








练 过 程 ， 随 机 种 子 甚至 都 会 很 大 地 影响 学 习 表 现 ， 有 NumPy 的 随机 种 子 ， 以 及 TensorFlow 





或 者 PyTorch 的 ， 


这 些 种 子 都 需要 被 合适 + 














否 有 任何 

















LAM 








于 现 学 习 


























但 同时 也 1 


ERES. 
FE 


可 以 

















瓶颈 问题 。 
监督 学 习 : 


程 。 


在 



































得 到 一 个 相对 
平衡 CPU 和 GPU 
TIR 
, CPU 经 常用 于 数据 读 写 和 








得 


的 得 至 





卉 的 种 子 等 。 
也 随机 化 。 
差异 ， 如 果 仍 有 随机 i 
过 程 
习 随 机 性 造成 
增加 


E. 使 用 随机 种 子 并 
I 错误 结论 的 可 能 性 。 通 常 使 


了 实验 耗 门 采 用 不 同 的 随机 种 子 进行 3 到 5 次 试验 便 

















刚 开 始 ， 你 可 以 


在 随机 化 这 些 种 子 的 时 候 ， 作 为 一 
国定 这 些 种 子 ， 然 后 观察 采样 夺 








种 默认 设置 ， 所 有 
L 迹 上 是 
































生 ， 可 能 表现 系统 内 还 有 其 他 随机 因素 。 
得 到 学 习 曲 线 的 平均 值 ， 可 以 减少 
用 越 多 的 随机 种 子 
























































司 定 随机 种 子 可 以 
实验 对 比 中 深度 强 
， 实 验 结果 就 越 可 



































时 。 根 据 经 验 ， 我 





























的 计算 


可 信 的 结果 ， 但 是 越 多 越 好 。 
计算 资源 以 加 速 训练 。 这 个 提示 实际 上 是 关于 找到 和 




















几 上 更 好 地 使 用 计算 资源 ， 对 于 强化 学 习 要 比 














解决 训练 速度 上 的 
监督 学 习 复 杂 。 在 









































预 处 理 ， 而 GPU | 























然而 ， 由 于 强化 学 习 中 推理 过 程 总 





环境 交互 的 设备 匹配 计算 
被 用 于 与 环境 交互 采 忆 











来 进行 前 向 推 
GPU 计算 资源 




















里 和 
的 利用 率 ， 避 人 免 线程 或 进程 沉 




















中 尤为 重要 。 对 














于 GPU 过 度 利 





对 于 CPU 过 度 利 用 的 情况 





的 数量 ， 


行 线程 和 进程 的 方式 。 注 意 上 











增 大 算法 内 更 新 迭代 次 数 ， 对 了 


的 过 程 ， 
反 向 传播 来 更 新 网 络 。 你 在 部 署 大 规模 训练 的 过 程 中 ， 














是 涉及 与 环境 的 交互 ， 计 算 梯 度 


EE 力 ， 否 则 会 是 对 探索 或 利用 




















于 进行 前 向 推理 和 反 向 传播 过 


的 浪费 。 在 强化 学 习 中 ，CPU 经 























的 设备 需要 与 处 理 


n 


"m 














Sb wuk 
He v» 





而 这 对 茶 些 复杂 的 模拟 系统 可 











及 大 量 运 算 。GPU 被 用 














应 当 检 查 CPU 和 











重 。 这 对 于 将 程序 分 配 到 大 








规模 并 行 计算 系统 























以 采用 更 多 的 采样 线程 或 进 








的 情况 ， 可 























程 来 与 环境 交互 。 














增 


， 你 可 以 减少 分 布 式 采样 线程 的 数量 ， 或 # 


离线 更 新 增 大 批 尺寸 等 ， 这 些 


















































看 所 述 只 是 关于 如 何 最 大 化 利用 你 的 计算 











HH 








imi 


分 布 式 更 新 线程 
都 依赖 于 你 管理 并 
资源 ， 你 也 应 当 考 






































虑 探索 和 利用 之 间 的 取舍 ， 以 及 对 于 多 种 多 样 的 强化 学 习 任务 在 不 同 层次 上 的 采样 效率 等 。 





为 了 解决 





CPU 和 GPU 资源 间 














ni SE ER 


的 平衡 问题 ， 你 经 常 需要 在 采样 和 训 




















或 多 进程 3 


行 计算 ， OR 





充分 利用 























尔 的 计算 机 。 需 要 仔细 考虑 如 何 设 计 能 









































程 /进程 和 网 络 更 











折线 程 / 进 











和 运行。 创建 元 余 进 程 有 时 可 以 他 和 4 
于 在 线 策 略 ， 离 线 策略 训练 的 并 














程 的 并 行 训练 框架 。 锁 和 管道 被 经 常用 于 这 种 
等 待 时 间 。 在 线 策 略 和 离线 策略 的 处 


任 















































行 设 置 经 常 更 加 灵活 ， 因 为 你 可 以 在 











| 练 过 程 


中 使 用 多 线程 








多 同时 运行 采样 线 
框架 来 支持 其 顺利 
里 可 能 不 同 ， 相 比 
何 时 刻 更 新 策略 而 
































441 


第 18 章 深度 强化 学 习 应 用 实践 技巧 























非 仅 在 片段 的 最 后 一 步 。 一 个 典型 的 在 PyTorch 框架 下 使 用 多 GPU 分 布 式 训练 的 使 用 方式 
如 图 18.3 所 示 。 使 用 PyTorch 处 理 多 GPU 过 程 在 前 向 推理 中 采用 了 一 个 模型 复制 过 程 和 一 
个 推理 结果 采集 过 程 ， 而 在 反 向 更 新 过 程 中 ， 梯 度 缩 减 被 用 于 并 行 的 梯度 反 向 传播 。 更 多 
相关 细节 在 强化 学 习 应 用 的 章节 中 有 所 讨论 ， 我 们 也 在 代码 库 中 提供 了 一 些 示例 程序 。 





















































4. Gather outputs on GPU-1 


1. Scatter mini-batch inputs to GPUs. 2. Replicate model on GPUs. 3. Parallel forward passes. 
n i Les 5 b! (23 024 (4d 


前 向 
3—8 
3-E 
B-E 
R-i 


1. Compute loss gradients on GPU-1 2. Scatter gradients to GPUs Parallel backward passes À 4. Reduce gradients to GPU-1 
ad ^] (px 2]  (grd 3] [gradh] 
ul ached] [cached] [cached] [cached] ipd! m] brad2_ m) lorad3 mp (yait m) 


[n Ly ssj kaan, l grad 
> Pam n d ul uL 
cÐ Gb GD Ð 
lgrad 11, grad. 12, grad 13, grad. 4] bed) toed) bd [eed MJ — (wed! m] [gad m] — dgrad3 mj [grads nl adi. m* 


图 183 8 FB torch.nn.DataParallel 的 前 向 和 反 向 过 程 ( 见 彩 插 ) 


3 

















。 可 视 化 。 如 果 你 不 能 直接 从 数值 中 看 清 潜在 关系 ， 你 应 当 尽 可 能 对 其 可 视 化 。 比 如 ， 有 时 
由 于 强化 学 习 过 程 不 稳定 的 特性 ， 奖 励 函 数 可 能 有 很 大 抖动 ， 这 种 情况 下 你 可 能 需要 画 出 
奖励 值 的 滑动 平均 曲线 来 了 解 智能 体 在 训练 中 是 否 有 进步 。 

平滑 学 习 曲 线 。 强 化 学 习 的 过 程 可 能 非常 不 稳定 。 直 接 从 未 经 处 理 的 学 习 曲 线 中 得 出 结论 
经 常 是 不 可 靠 的 ， 像 图 18.4 中 未 经 平滑 的 学 习 曲 线 那 样 。 我 们 通常 要 用 滑动 平均 、 卷 积 核 
等 来 平滑 学 习 曲 线 ， 并 且 选 用 一 个 合适 的 窗口 长 度 。 通 过 这 种 方式 ， 学 习 表 现 的 上 升 /下 降 
趋势 可 以 更 清楚 地 展示 出 来 ， 当 你 在 解决 一 个 有 着 很 长 训练 周期 和 较 慢 表现 进步 的 复杂 强 
化 学 习 任务 时 ， 这 么 做 可 能 很 关键 。 
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片段 
184 强化 学 习 中 和 平滑 的 和 未 平滑 的 学 习 曲 线 ( 见 彩 插 ) 
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参考 文献 
。 理 解 探 索 和 利用 。 从 图 18.4 中 我 们 可 以 看 出 ， 学 习 曲 线 在 早期 训练 阶段 有 一 个 平台 期 。 实 
际 上 ， 这 在 强化 学 习 过 程 中 不 是 一 个 罕见 的 ， 而 是 一 个 十 分 常见 的 情况 。 这 是 因为 在 强化 

















学 习 中 ， 学 习 样 本 不 是 像 在 监督 学 习 中 那样 提前 准备 好 的 ， 而 是 通过 所 应 用 的 智能 体 策 四 
探索 得 到 的 。 因 此 ， 当 前 策略 能 否 探索 到 较 高 奖励 

键 的 。 而 这 会 引出 探索 相关 的 问题 ， 即 需要 保证 我 们 的 策略 能 逐 洲 

当 强 化 学 习 算 法 不 能 对 一 个 具体 任务 工作 时 ， 你 需要 研究 这 个 智能 体 是 否 

更 好 的 轨迹 。 如 果 没 有 ， 至 少 说 明 当 前 的 探索 方式 可 能 有 问题 。 然 而 ， 如 

探索 到 好 的 轨迹 ， 但 它 仍 不 能 收敛 到 好 的 动作 选择 ， 那 么 可 能 是 利 / 

不 能 够 较 好 地 从 好 的 轨迹 中 学 习 。 利 用 问题 可 能 是 





合 、 价 值 函数 较 低 的 学 习 率 、 较 差 的 策略 网 络 学 习 效 果 
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由 的 轨迹 在 强化 学 习 训练 中 可 能 是 很 关 











探索 到 接近 最 优 的 轨迹 。 











已 经 探索 到 那些 






































j 问 题 。 这 意味 着 策 






























































=| 


线 展示 了 一 个 健康 的 学 习 进步 ， — EUR 











等 造成 




















表现 会 





OH 


ML 


也 调试 代码 裔 


首先 质疑 你 的 算法 实现 。 当 你 内 
很 重要 。 算 法 实现 上 








M, 
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在 保证 实现 正确 
的 过 程 : 先 
微调 分 布 式 的 j 


对 超 参 数 



































性 的 前 提 下 


| 练 过 程 。 
的 糟糕 选择 、 未 经 归 一 化 的 输入 数据 等 ， 而 最 





;提升 〈 在 平台 期 后 )。 





| 完成 代码 实现 以 后 ， 
的 正确 性 总 















































fF 本 被 探索 到 在 平 


是 要 先 于 
再 考虑 微调 超 参数 。 而 这 
小 规模 例子 测试 来 保证 算法 实现 的 正确 


pay 
=i 











它 不 会 工作 ， 是 














也 正 是 本 章 玫 


较 低 的 样本 效率 、 较 差 的 价值 函数 氟 
的 。 图 18.4 中 月 
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ELE 




















f 示 的 学 习 














期 中 )， 策 略 更 新 会 使 学 习 





民 常 见 的 ， 而 这 时 ， 耐 
微调 一 个 相对 好 的 结果 ， 因 此 ， 应 
F 头 提 到 的 强化 学 习 应 
生 ， 然 后 逐步 扩展 到 大 规模 环境 并 


























个 糟糕 的 学 习 表现 可 能 


很 多 因 
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iJ 
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为 了 给 读 3 





提供 











中 也 参考 了 一 些 外 前 
Falcon 的 相关 博客 3 等 。 我 们 也 建议 读者 参考 这 些 总 结 得 较 好 的 建议 和 来 
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的 关于 强化 学 习 算法 在 具体 项 


目 应 用 上 的 指导 




















































































































帮助 实现 自己 的 强化 学 习 算法 和 应 用 。 查 阅 与 你 所 做 内 容 
验 ， 总 是 很 有 帮助 的 。 

此 外 ， 读 者 需要 知道 只 是 
强烈 推荐 读者 自己 手动 实现 一 些 代码 来 获取 实践 经 验 ,只 
大 作用 。 
参考 文献 





bP 资源， 包括 OpenAI Spinning Up!. John Schulman fA); 





， 我 人 





素 导 致 ， 如 不 充足 的 训练 时 间 、 
见 的 原因 是 代码 实现 中 的 错误 。 
门 在 写本 章 的 过 程 











Dh 











fa?. William 














相似 的 他 人 之 前 


阅读 上 面 段落 中 经 验 性 的 指示 而 不 实践 ， 几 乎 没 
通过 这 种 方式 才能 发 挥 这 些 技巧 的 最 





























自古 
的 工 














完 人 员 的 经 验 ， 来 
什 ， 并 从 中 吸取 经 





3H. ATU, RI 








ESPEHOLT L, SOYER H, MUNOS R, et al., 2018. Impala: Scalable distributed deep-rl with importance 
weighted actor-learner architectures[J]. arXiv preprint arXiv:1802.01561. 





IOpenAI Spinning Up: https://spinningup.openai.com/en/latest/index. html 
?The Nuts and Bolts of Deep RL Research. John Schulman: http: //joschu.net/docs/nuts-and-bolts.pdf 
3Deep RL Hacks: https://github.com/williamFalcon/DeepRLHacks 
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为 了 帮助 读者 快速 查阅 与 比较 不 同 的 算法 ， 我 们 在 附录 A 总 结 了 介绍 过 的 算法 及 其 对 应 论 


文 ， 在 附录 B 提供 了 






































个 算法 的 伪 代 码 ， 附 录 C 提供 英文 首 




















T BEAR EUR 





英文 对 照 表 。 


445 





的 。 我 们 希望 这 样 能 为 读者 寻找 相关 文献 提供 


446 





fi 


E 附 录 A 

















算法 总 结 表 























， 我 们 将 那些 常见 的 强化 学 习 算 法 总 结 成 
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总 结 





T ORE) 强化 学 习 的 算法 和 关键 概念 。 这 些 算法 被 分 为 四 个 部 分 : 深度 学 习 、 





附录 B 总 结 
强化 学 习 、 深 度 强化 学 习 和 高 等 深度 强化 学 习 。 为 了 便于 读者 学 习 ， 我 们 为 每 个 算法 提供 了 伪 代 
记号 和 术语 与 整 本 书 一 致 。 














保持 数学 符号 、 变 遇 











人 码 。 我 们 尽量 在 行文 ! 
B1 深度 学 习 


B.1.1 随机 梯度 下 降 
算法 B.43 随机 梯度 下 降 的 训练 过 程 














Input: 参数 0, 学 习 率 a, 训练 步 数 /迭代 次 数 5 


fori=0toS do 
计算 一 个 小 批量 的 £ 

通过 反 向 传播 计算 96 

v0 — —a: 25; 

0 —0-- vo 更 新 参数 


end for 
return 6; 返回 训练 好 的 参数 
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B.1.2 Adam 优化 器 
算法 B.44 Adam 优化 器 的 训练 过 程 








Input: 参数 0, 学 习 率 a, 训练 步 数 /迭代 次 数 5S, Bı = 0.9, 82 = 0.999,e = 1078 
mo < 0; 初始 化 一 阶 动量 
vo + 0; 初始 化 二 阶 动量 
for t = 1 to S do 
ac. | I BER ASEBA 
m, — By * mii + (1— 51) * 25: 更 新 一 阶 动量 
v; € Bo * Vii (1 — 82) * (2 £) 更 新 二 阶 动量 
Ty — 174 计算 一 阶 动量 的 滑动 平均 
$, — 1*5 ;计算 二 阶 动量 的 滑动 平均 
VO — —ax NAE 
0 — 64 VO; 更 新 参数 
end for 
return 0; 返回 训练 好 的 参数 


T| 


























fiti 


















































B.2 ”强化 学 习 


B.2.1 赌博 机 
随机 多 辟 赌 博 机 (Stochastic Multi-armed Bandit) 
算法 B.45 多 辟 赌 博 机 学 习 





初始 化 开 个 手臂 

定义 总 时 长 为 全 

每 一 个 手臂 都 有 一 个 对 应 的 w € [0, 1]. 每 一 个 奖励 都 是 独立 同 分 布地 从 ww 中 采样 得 到 的 
fort =1,2,--- ,T do 

智能 体 从 K 个 手臂 中 选择 A, = d 

oe 2e R; = (Ri, R?,... , RE) 







































































end for 





对 抗 多 臂 赌 博 机 CAdversarial Multi-armed Bandit) 
算法 B.46 对 抗 多 臂 赌博 机 








初始 化 K 个 机 器 手臂 


452 


B.2 强化 学 习 





fort = 1,2,--- , T do 
智能 体 在 K 个 手臂 当中 选中 五 
对 抗 者 选择 一 个 奖励 值 向 量 R, = (Ri, R2,--- , RE) € [0,1]* 
智能 体 观察 到 奖励 RE (根据 具体 的 情况 也 有 可 能 看 到 整个 奖励 值 向 量 ) 


end for 























































































































算法 B.47 针对 对 抗 多 辟 赌 博 机 的 Hedge 算法 





初始 化 天 AEB 
Gi(0) for i = 1,2,--- ,K 
fort =1,2,--- , T do 
智能 体 从 p(t) 分 布 中 选择 A, = d, Kn 











exp(Gi(t — 1)) 


HE DE exp(nG;(t — 1)) 





智能 体 观 测 到 奖励 gi 
it Gilt) = G(t - 1) + gi, Vi € [1, K] 
end for 








B.2.2 ”动态 规划 
策略 迭代 (Policy Iteration) 


算法 B.48 策略 迭代 





对 于 所 有 的 状态 初始 化 VV 和 
repeat 
/执行 策略 评估 
repeat 
ó —0 
for s c S do 
v — V(s) 
V(s) © X, alr + V (s) P(r, s, n(s)) 
ô + max(0d, |v — V (s)|) 




















end for 
until 6 小 于 一 个 正 阔 值 
// 执 行 策略 提升 


stable < true 
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for s c S do 
a € t(s) 
m(s) — arg maxa >, (r+ yV(s’)) P(r, s'|s, a) 
if a Æ 7(s) then | 
stable — false 
end if 
end for 
until stable — true 
return 策略 7 





价值 迭代 (Value Iteration) 





算法 B.49 价值 迭代 
为 所 有 状态 初始 化 V 
repeat 
ó —0 
for s c S do 
u + V(s) 
V(s) — maxa 55, s 
ô + max(d, |u — V (s)|) 


P(r, s'|s, a)(r +7V(s’)) 


end for 
until ô / T — ERE 
Mí CHEWS (s) = arg maxa Z, y P(r, ss a) (r + V (s^) 











B.2.3 ”蒙特 卡 罗 


蒙特 卡 罗 预 测 
算法 B.50 首次 蒙特 卡 罗 预 测 























输入 : 初始 化 策略 m 
初始 化 所 有 状态 的 V(s) 
初始 化 一 列 回 报 : Returns(s) 对 所 有 状态 


repeat 
通过 x: So, Ao, Ro, 51,… ,ST_1, Ami Ri 生成 一 个 回合 














G —0 
t—T-1 
for t >= 0 do 

G + yG + Rua 
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if 50,91 , 9, 4 没有 Sı then 
Returns(5,).append(G) 
V(S4) — mean(Returns(S;)) 
end if 
tete] 





end for 
until 收敛 
蒙特 卡 罗 控 制 
算法 B.51 蒙特 卡 罗 探 索 开始 
初始 化 所 有 状态 的 a(s) 
对 于 所 有 的 状态 -动作 对 ， 初 始 化 Q(s, a) 和 Returns(s, a) 
repeat 
随机 选择 So 和 Ao 直到 所 有 状态 -动作 对 的 概率 为 非 零 
根据 0: So, Ao, Ro, 5S1,… ,ST_1, Apa, Ri 来 生成 So, Ao 
G —0 
t—T-1 
for t >= 0 do 
G — yG + Ri 
if So, Ao, S1, A1 +- , 914, Aca XA Sı, Ay then 
Returns( S+, A;).append(G) 
Q(S,, Az) < mean(Returns(S;, A;)) 
7T($,) — arg max, Q(S;, a) 
end if 
tct-1 
























































end for 
until i$ 


时 间 差 分 (Temporal Difference, TD) 


算法 B.52 TD(0) 对 状态 值 的 估算 
输入 策略 元 
初始 化 V(s) MAK a € (0, 1] 
for 每 一 个 回合 do 
初始 化 So 
for 每 一 个 在 现 有 的 回合 的 S; do 
A, € 7(St) 






































455 


附录 B 算法 速 查 表 





Rett, $11 g= Env(Si, At) 
V(S;) — V(S;) + af Regi +V (Si+) - V (S) 





























end for 
end for 
TD(A) 
算法 B.53 状态 值 半 梯度 TDA) 
输入 策略 m 





mi 
Tu 
g 














初始 化 一 个 可 求 导 的 状态 人 


for 对 每 一 个 回合 do 


函数 v、 步 长 a 和 状态 值 函数 权 习 



































初始 化 So 

zc—0 

for 每 一 个 本 回合 的 步骤 S, do 
TE FH m REFE A, 





Resi, 6,41 € Env(Si, Az) 
z € yAz + VV (Si, ux) 
0 4 Ripi + VV (9044, we) — V (St, we) 
w + w +aôz 
end for 
end for 





Sarsa: 在 线 策 略 TD 控制 


算法 B.54 Sarsa (在 线 策略 TD 控制 ) 


= 











对 所 有 的 状态 -动作 对 初始 化 Q(s, a) 
for 每 一 个 回合 do 

初始 化 So 

用 一 个 基于 Q 的 策略 来 选择 Ao 

for 每 一 个 在 当前 回合 的 S, do 
一 个 基于 Q 的 策略 从 S, 选择 A, 

R44, 5441 € Env(Si, Az) 

从 Sui 中 用 一 个 基于 Q 的 策略 来 选择 Api 

Q(S:, Ai) — Q(St, At) + ona + YQ(St41, Aca) — Q(S:, A)] 
end for 









































SR 



































end for 
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N 步 Sarsa 


算法 B.55 N 步 Sarsa 
对 所 有 的 状态 动作 对 初始 化 Q(s, a) 
初始 化 步 长 a € (0, 1] 
决定 一 个 固定 的 策略 oe 或 者 使 用 e- 贪 心 
for 每 一 个 回合 do 
初始 化 So 
使 用 m(So, A) 来 选择 Ao 
T —INTMAX (一 个 回合 的 长 度 ) 
y —0 
fort «—0,1,2,--. until y — T — 1 do 
if t < T then 
Ri+1, St+1 € Env (Sr, At) 
if $,,4 是 终止 状态 then 
T —t-41 
else 
使 用 m(S,, A) 来 选择 Aia 
end if 
end if 
T«t—n-cl (更 新 的 时 间 点 。 这 个 是 n 步 Sarsa， 所 以 只 需要 更 新 那个 mn 十 1 前 的 一 步 ， 
就 会 持续 这 样 下 去 ， 直 到 所 有 状态 都 被 更 新 。) 
if 7 > 0 then 
Gc DE grt, 
ifyt+n< T then 
GH G+ 7"Q(Stin, Ay+n) 
end if 
Q(S,, A4) = Q(Sy, A4) + a[G — Q(S,. A.) 
end if 
end for 
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end for 


Q-learning: 离线 策略 TD 控制 








算法 B.56 Q-learning (离线 策略 TD 控制 ) 
初始 化 所 有 的 状态 -动作 对 的 Q(s, a) 以 及 步 长 € (0, 1] 


for 每 一 个 回合 do 
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附录 B 算法 速 查 表 





初始 化 So 
for 每 一 个 在 当前 回合 的 S, do 

使 用 基于 Q 的 策略 来 选择 Ay 

R44, St+1 € Env(Si, Az) 

Q(St, At) — Q(St, At) + a[ Regi + ^y maxa Q(Si41,@) — Q(St, Aid] 
end for 














end for 





B3 ”深度 强化 学 习 


深度 Q 网 络 (Deep Q-Networks, DQN) 是 一 个 将 Q-learning 通过 深度 神经 网 络 来 拟 合 价值 
函数 ， 从 而 延伸 到 高 维 情况 的 方法 ， 它 使 用 一 个 目标 动作 价值 网 络 和 一 个 经 验 回放 缓存 来 更 新 。 
主要 思想 : 
。 用 神经 网 络 进行 Q 值 函数 拟 合 ; 
。 用 经 验 回放 缓存 进行 离线 更 新 ; 
。 目标 网 络 和 延迟 更 新 ; 
。 用 均 方 误差 或 Huber 损失 来 最 小 化 时 间 差分 (Temporal Difference, TD) 误差 。 





















































































































































算法 B.57 DON 
超 参数 : 回放 缓存 容量 N、 奖 励 折 扣 因 子 yY、 用 于 目标 状态 -动作 值 函 数 更 新 的 延迟 步 长 C、 
e-greedy 中 的 e 
输入 : 空 回 放 缓 存 卫 ， 初 始 化 状态 -动作 值 函数 Q 的 参数 0 
使 用 参数 0 — 0 初始 化 目标 状态 -动作 值 函数 Â 
for 片段 = 0,1,2,--- do 
初始 化 环境 并 获取 观测 数据 Oo 
初始 化 序列 So = {Oo} 并 对 序列 进行 预 处 理 oo = (So) 
for t= 0,1,2, --- do 
通过 概率 e 选择 一 个 随机 动作 A;， 否 则 选择 动作 A, = arg max, Q(6(5;), a; 0) 
执行 动作 A, 并 获得 观测 数据 Orpi 和 奖励 数据 Ry 
如 果 本 局 结束 ， 则 设置 D,=1, f Dt = 0 
设置 Siyi = {St Ar, Orpa} 并 进行 预 处 理 $441 = 9(S441) 
存储 状态 转移 数据 (84, Ar, Re, Di desi) 到 人 DD 中 
MD 中 随机 采样 小 批量 状态 转移 数据 (Qi, Ai, Ri, Di, 内) 
如 果 Di = 0， WE Y; = Ri -ymaxy Q(¢,0',6), TURE Y; = Ri 
在 (Y; — Q(ó;, A50)? EXT 0 执行 梯度 下 降 步 又 


















































































































































































































































B3 深度 强化 学 习 





每 C 步 对 目标 网 络 Q 进行 同步 
如 果 片 段 结束 ， 则 跳出 循环 


end for 


























end for 











Double DQN 是 一 个 DQN 的 改进 版 本 ， 用 来 解决 过 估计 COverestimation) 问题 。 
主要 思想 : 
* X Q 网 络 是 一 种 对 目标 价值 估计 的 嵌入 式 方法 ， 一 个 Q 估计 值 被 嵌入 另 一 个 Q 估计 值 中 。 
更 改 上 面 DON 算法 的 第 14 TNS Y; = Ry + (1 — Dj) Q (0541, arg maxa Q(6541, a; 05); 0). 

Dueling DQN 是 对 DQN 的 一 个 改进 版 本 ， 它 将 动作 价值 函数 分 解 为 一 个 状态 价值 函数 和 一 
个 依赖 状态 的 动作 优势 函数 。 

主要 思想 : 

。 将 动作 价值 函数 Q 分 解 为 值 函数 VY 和 优势 函数 4。 
更 改 DQN 中 动作 价值 函数 @( 及 它 的 目标 @%) 的 参数 化 方式 为 @(s,a; 9, 0u, 0a) = V(s;0, Oy) + 



































































































































































































































(A(s, a; 0,0,)—maxq A(s, a^; 0,0,)) 8X, Q(s,a;0,0,,0,) = V(s;9, Oy) +(A(s, a; 9, 0a)— a uar A a’; 0, 
04))- 

REINFORCE 是 一 个 使 用 基于 策略 优化 和 在 线 策略 更 新 的 算法 。 
算法 B.58 REINFORCE 





输入 : 初始 策略 参数 0 
for k = 0,1,2,--- do 
初始 化 环境 
通过 过 在 环境 中 运行 策略 Ty = T(Ok) 收集 轨迹 数 oe Dk = iri = {(S1, Ar, Re)lt = 0,1,.…- TH 
计算 累计 奖励 G 
估计 策略 梯度 gs = Taq Eren, Lezo Vo log re (A«d|S0) lo, Ge 
通过 梯度 上 升 更 新 策略 O41 = On 十 akgk 
end for 




































































带 基准 函数 的 REINFORCE 算法 或 称 初版 策略 梯度 (REINFORCE with Baseline/Vanilla Policy 
Gradient) 是 REINFORCE 的 另 一 个 版 本 ， 它 使 用 动作 优势 函数 而 不 是 累计 奖励 来 估计 策略 梯度 。 
算法 B.59 带 基 准 函 数 的 REINFORCE 算法 

超人 参数 : 步 长 1、 奖励 折扣 因子 y. BRL. ORT B、 基 准 函 数 b. 
输入 : 初始 策略 参数 00 
初始 化 0=00 
for k = 1,2,--- , do 
执行 策略 re 得 到 B 个 轨迹 ， 每 一 个 有 工 步 ， 并 收集 (Suo, Ane, Rec} 
Ate = oe at x T = HS.) 
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附录 B 算法 速 查 表 





J(0) = b Xa Xeo log To (Arel Ste) Ave 
0 =0+mVJ(0) 
FA (Sio, Ate, Rec} 更 新 b(S:.2) 

end for 

返回 0 




















Actor-Critic 是 一 个 改 自 REINFORCE 的 算法 ， 它 使 用 价值 函数 拟 合 。 














算法 B.60 Actor-Critic 算法 
超 参数 : 步 长 m Al nos ZAMAT y 
输入 : 初始 策略 函数 参数 bo, 初始 价值 函数 参数 wo 
初始 化 9= 00 和 w= vo 
for t = 0,1,2,--- do 
执行 一 步 策略 mo, 保存 (55, Ar, Re, S41} 
估计 优势 函数 A, = Ry + WV? (Sua) — VZ’ (Se) 
J(0) = Y, log To (4:9:1) Ar 
Jye (9) = Dy AP 
V = b+ ne V Jyzo (4), 0 = 0 + meV J(0) 
end for 


返回 (6, v») 



































Th 








Q 1B Actor-Critic (Q-value Actor-Critic, QAC) 是 另 一 个 版 本 的 Actor-Critic 算法 ， 作 为 基本 
价值 (比如 Q-Learning) 和 基于 策略 〈 比 如 REINFORCE) 优化 方法 的 结合 ， 使 用 在 线 策 略 更 新 
的 方式 。 

主要 思想 : 


。 结 合 DQN fll REINFORCE. 























算法 B.61 QAC 
输入 : 初始 策略 参数 9、 初始 动作 价值 函数 @ 的 参数 w、 折 扣 因 子 y 
for k = 0,1,2,--- do 



































初始 化 环境 
通过 在 环境 中 运行 策略 om, = (94)， 收 集 轨 迹 数 据 集 Di = (n = {(S;, Ar, Re Dolt = 
0, 1,. TJ). 


计算 TD 误差 5 = Re t+ y maxy Qu (St41, 0’) — Qu (S51, At) 
计策 略 梯度 如 ge = r5 Eren, Diao Vo log re (AdS0) lo Qu (Sc, Ac) 
通过 梯度 上 升 更 新 策略 01 = Ok + o gi 

使 用 均 方 误差 更 新 动作 价值 函数 dey = arg ming pir Lren, Dico 07 通过 梯度 下 降 算法 


u 
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B3 深度 强化 学 习 





end for 











优势 Actor-Critic (Advantage Actor-Critic, A2C) 是 Actor-Critic 算法 的 改进 版 本 ， 它 使 用 有 
基准 的 REINFORCE 而 非 初版 REINFORCE 来 进行 策略 优化 ， 并 且 使 用 在 线 策 略 更 新 。 

主要 思想 : 

。 结 合 DQN 和 有 基准 的 REINFORCE. 
































































































































算法 B.62 A2C 

Master: 
BER: 步 长 ny 和 no, worker 节点 集 Y 
输入 : 初始 策略 函数 参数 Oo, 初始 价值 函数 参数 wo 
初始 化 0= 09 I v = wo 
for k = 0,1,2,--- do 

(gu; go) = 0 

for W 里 每 一 个 worker 节点 do 

(gu. go) = (gu; go) + worker(V.7^, mo) 
end for 





p = V — My gy; 0 = 0 + Nogo. 
end for 





Worker: 

BER: 奖励 折扣 因子 y, 轨迹 长 度 L 

输入 : 价值 函数 Vins 策略 函数 re 

执行 工 步 策略 mo, 保存 (S1, Ar, Re, St+1} 

估计 优势 函数 A, = Ri + Wig’ (S41) — Vie? (Se) 
J(0) = >, log To (AlS) Ar 

Jyz() = Z, AB 

(99.90) = (Y Jyzo (0), VJ(0)) 

返回 (gy, go) 




































































异步 优势 Actor-Critic (Asynchronous Advantage Actor-Critic, A3C) 是 一 个 A2C 的 修改 版 本 ， 
它 使 用 异步 梯度 更 新 来 实现 大 规模 并 行 计 算 。 
主要 思想 : 
。 异步 更 新 策略 。 
算法 B.63 A3C 
Master: 


BEM: 步 长 ny 和 me, 当前 策略 函数 ro, 价值 函数 Vs。 
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附录 B 算法 速 查 表 





输入 : 梯度 gu. go 
p = V — nogy; 0 = 0 + go 
返回 (V.7^, To) 








Worker: 
MSR: 奖励 折扣 因子 Y、 轨 迹 长 度 工 
输入 : 策略 函数 re、 价值 函数 Vo’ 
(ge, gu) = (0,0) 
for k = 1,2,---,do 
(0, Y) = Master(go, gy) 
执行 工 步 策略 ro, 保存 (50, Ar, Ri, Str1}。 
估计 优势 函数 A, = Ry + VI" (913) — V; (8) 
J(0) = Xo, log To (AlS) À; 
dye (V) = 35 A? 
(gy, go) = (V Jyzo (Y), VJ(8)) 
end for 
























































深度 确定 性 策略 梯度 (Deep Deterministic Policy Gradient, DDPG) 是 DQN 和 QAC 的 结合 ， 
它 使 用 确定 性 策略 ， 并 采用 经 验 回放 缓存 和 离线 策略 更 新 的 方式 。 





























tas] 























。 确定 性 策略 作为 动作 空间 上 Q 值 的 最 大 化 算 子 的 拟 合 ; 
。 用 Ornstein-Uhlenbeck 或 高 斯 噪声 进行 随机 动作 的 探索 ; 
。 目标 网 络 和 延迟 更 新 。 






























































算法 B.64 DDPG 
BEM: 软 更 新 因子 p， 奖 励 折扣 因子 7 
输入 : 回放 缓存 D， 初 始 化 Critic 网 络 Q(s, aj09) 参数 09. Actor 网 络 r(s|br) 参数 gr、 目标 
网 络 Q'. 7’ 
初始 化 目标 网 络 参数 @' RI s^. WUE o9" — 99.07 — o7 
for episode — 1, M do 
初始 化 随机 过 程 W 用 于 给 动作 添加 探索 



























































接收 初始 状态 Sy 
for t= 1,7 do 





选择 动作 A, = n(S,|07) +N 
执行 动作 A, 得 到 奖励 尺 ， 转 移 到 下 一 状态 Stat 
存储 状态 转移 数据 对 (Se, At, Ri, Dt, Si41) 到 DD 
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B3 深度 强化 学 习 





4 Yi = Ri t+ Y» — DAQ’ (Sty, T (St41|67 69 ) 


通过 最 小 化 损失 函数 更 新 Critic 网 络 : 
L= 654 -Q(S;,AJ0?)? 
通 








通过 策略 梯度 的 方式 更 新 Actor 网 络 : 

Vor J & N 34 VaQ(s, 2/9?) |5=5;,a=n(8;) Vor™(8]97)| 5, 
更 新 目标 网 络 : 

09' & pO? + (1 — p)89' 

07 ¢ p07 + (1 — p)0* 


end for 

















过 | 














end for 

















a5 {EIR DDPG (Twin Delayed DDPG, TD3) 是 一 个 更 先进 的 基于 DDPG 的 算法 ， 它 使 用 挛 生 
动作 价值 网 络 ， 并 对 策略 和 目标 网 络 采用 延迟 更 新 。 
主要 思想 : 
* Double Q-learning; 
。 对 目标 网 络 和 策略 的 延迟 更 新 ; 
。 对 目标 策略 的 平滑 正则 化 。 
















































































算法 B.65 TD3 
BER: 软 更 新 因子 p， 回 报 折扣 因子 y， 截 断 因 子 c 
输入 : 回放 缓存 D， 初 始 化 Critic 网 络 Qo, Qo, 参数 01,02 WIU Actor 网 络 no 参数 o 
初始 化 目标 网 络 参数 0 — 01,02 — 02,0 — 6 
for t = 1 to T dodo 
选择 动作 Ay ~ Tel St) +e, € ~ N (0,0) 
接受 奖励 R 和 新 状态 Sua 
存储 状态 转移 数据 对 (S, At, Ri, Di, $441) 到 D 
M D PRERNA N 的 小 批量 样本 (Si, At, Re, De, St41) 
iyi € Ty (Sí) + 6€ ~ clip(N (0,6,—c,c)). 
y €— Ra o yY(1 — Di) mini=1,2 Qe; ($141,141) 
更 新 Critic 网 络 0; — arg mingo, N^! Y: (y — Qe, (Sj, At))? 
if t mod d then 
更 新 9: 
Ved (o) = N Y VaQa (St, At) (8) V ere (St) 
更 新 目标 网 络 : 
6; + p; + (1— p); 
-pe - (1 — p)ó 






























































c 
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附录 B 算法 速 查 表 





end 让 
end for 



































柔性 Actor-Critic (Soft Actor-Critic SAC) 是 一 个 更 先进 的 基于 DDPG 的 算法 ， 使 用 额外 的 
KER (Soft Entropy) 项 来 促进 探索 。 


主要 思想 : 


- JRL UCR TEXETRER s 

Double Q-learning; 

。 再 参数 化 技巧 使 得 随机 性 策略 可 微 并 用 确定 性 策略 梯度 更 新 ; 
Tanh 高 斯 型 动作 分 布 。 


算法 B.66 SAC 
超 参 数 : HIR k, HK AQ, Ar, Aa, 指数 移动 平均 系数 T 
输入 : 初始 策略 函数 参数 0, 初始 Q 值 函 数 参 数 $1 及 o2 
D = 0; 6; = di fori = 1,2 
fork =0,1,2,---. do 
fort = 0,1,2,--- do 
从 Toll Se) 中 取样 At, 保存 (Re, St41)0 
D = DWAS At, Ri, S4) 
end for 
进行 多 步 梯度 更 新 : 
Qi = $; — AqVJa(¢i) for i = 1,2 
6=0—A,VoJn(O) 
a=a-AgVI(a) 
à; = (1—7)b; + 7G; for i = 1,2 
end for 
返回 0, G1, 加。 







































































信赖 域 策略 优化 〈Trust Region Policy Optimization, TRPO) 是 一 个 使 用 二 阶梯 度 下 降 和 在 线 
策略 更 新 的 信赖 域 算法 。 
主要 思想 ， 

。 用 KL 散 度 〈KL-divergence) 来 使 得 新 旧 策 略 在 策略 空间 中 接近 ; 
。 有 限制 的 二 阶 优化 方法 ; 
。 EHIE (Conjugate Gradient) Kit fait EE (Inverse Matrix). 
































a 














— 




















算法 B.67 TRPO 
MSR: KL- 散 度 上 限 6, WAM a, 最 大 回调 步 数 K 
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B.3 


深度 强化 学 习 

















输入 : 回放 缓存 Dk, 初始 策略 函数 参数 0o, 初始 价值 函数 参 
for episode = 0,1,2,--- do 

在 环境 中 执行 策略 m = (Ox) 
计算 将 得 到 的 奖励 Gi 
基于 当前 的 价值 函数 Yon 计算 优 
占 计 策略 梯度 9 = DT Veep, Yizo Vologro(4i|54) 






































并 保存 轨迹 集 Dy = 























Ok 





















































































































































势 函数 估计 A (使 用 任何 估计 优势 的 方法 ) 

















吕 用 共 罗 梯度 算法 计算 dy zo Ay gy 这 里 Ay 是 样本 平均 KL 散 度 的 Hessian 矩阵 
通过 回 湖 线 搜索 更 新 策略 Oh a = Or + 0) [L1 â 这 里 j 是 {0,1,2,… K} 中 提高 样本 
损失 并 且 满 足 样本 KL 散 度 约束 的 最 小 信 
通过 使 用 梯度 下 降 的 算法 最 小 化 均 方 误差 来 拟 合 价值 函数 ， Or = argming phr 
~ \2 
en. m (ValS) 3 Gi) 
end for 
近 端 策略 优化 〈 征 罚 型 ) (Proximal Policy Optimization, PPO-Penalty) 是 一 个 基于 TRPO 的 





信赖 域 算 法 ， 它 使 用 一 阶 
主要 思想 : 
用 KL 散 度 来 使 得 新 旧 策 略 在 策略 空间 中 接近 ; 
。 将 受 限 优化 问题 转化 为 一 个 不 受 限 的 问题 ; 
。 用 一 阶 方法 来 避免 计算 Hessian FER; 
。 自 适应 地 调整 惩罚 系数 。 


梯度 和 以 一 个 自 适应 惩罚 项 实现 的 信赖 域 限制 。 





= 



























































"AE 
































算法 B.68 PPO-Penalty 








超 参数 : 奖励 折扣 因子 7，KL BOUES TI AMA, 3 
输入 : 初始 策略 函数 参数 9、 初始 价值 函数 参数 $。 
fork = 0,1,2,--- do 





















































HT T ERNE mo, TRAE (St, At, Re} 
估计 优势 函数 A, = Dase TE Rp — Val Se). 
Told < To 
for m € {1,---,M}do 
Jppo(8) = Ya E ERE Ay — AE, [Di (ro (lS) llao C/80))] 
使 用 梯度 算法 基于 .ppo(0) 更 新 策略 函数 参数 0。 
end for 
for b € {1,--- , B) do E 
L(¢) = -5 1 (Dost “Ry — Vo(St)) 
使 用 梯度 算法 基于 L(b) 更 新 价值 函数 参数 os 





适应 性 参数 a = 1.5,b = 2, 子 迭 代 次 数 M, B. 


465 


附录 B 算法 速 查 表 





end for 
iH d = By [Dkr(roa(.159llre(1S9)] 
if d < diarget/a then 
A — Afb 
else if d > dtarget xX a then 
À«—Axb 
end if 
end for 




















近 端 策略 优化 《〈 截 断 型 ) 是 一 个 基于 TRPO 的 信赖 域 算 法 ， 它 使 用 一 阶梯 度 和 以 一 个 对 梯度 
的 截断 方法 实现 的 信赖 域 限制 。 
主要 思想 : 


。 在 目标 函数 中 用 截断 方法 蔡 换 KL- 散 度 的 限制 。 


a 





























= 























算法 B.69 PPO-Clip 

超 参 数 : 截断 因子 e 子 迭 代 次 数 M, B. 

输入 : 初始 策略 函数 参数 0, 初始 价值 函数 参数 6 
for k = 0,1,2,--- do 
在 环境 中 执行 策略 ro, 并 保存 轨迹 集 Dy, = (0) 
计算 将 得 到 的 奖励 e 
基于 当前 的 价值 函数 Vo, 计算 优势 函数 A, 〈 基 于 任何 优势 函数 的 估计 方法 ) 
for m € {1,--- , M} do 
Ll0) = ZECHTO 采用 Adam 随机 梯度 上 升 算法 最 大 化 PPO-Clip 的 目标 函数 来 更 新 策略 : 


To) AlS) 






















































































T 
= "P i ^) A 14 

kii = aenak [D.T 2 > min (4; (0°) A” (S4, At), 

clip(4(0"), 1 — €, 1 + €) A" ou (Si, At)) 
end for 
for b € {1,--- , B} do 

JW NR 差 来 学 习 价值 函数 : 

Ọk+1 = arg ming IDT ee: wa 0 (ValS) (St) 一 Gi 
end for 




















2 





end for 





使 用 Kronecker 因子 化 信赖 域 的 Actor-Critic (Actor Critic using Kronecker-Factored Trust 
Region, ACKTR) 是 一 种 信赖 域 在 线 策略 算法 ， 对 二 阶 自然 梯度 计算 使 用 Kronecker 因子 化 近似 。 


主要 思想 ; 
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。 使 用 自然 梯度 的 二 阶 优化 ; 
。 对 自然 梯度 进行 K-FAC 近似 。 


算法 B.70 ACKTR 
超 参 数 : 步 长 Nmax, KL- 散 度 上 限 9 
输入 : 空 回放 缓存 D, 初始 策略 函数 参数 bo, 初始 价值 函数 参数 bo 
for k = 0,1,2,--- do 
在 环境 中 执行 策略 te = n (On) 并 保存 轨迹 集 Dy = {riji = 0,1,---} 
计算 累积 奖励 Gi 
基于 当前 的 价值 函数 Vo. EA A, 〈 基 于 任何 优势 函数 的 估计 方法 ) 
估计 策略 梯度 gi = PI S LED Y o Vo log T79(AilSt)|o, At 
for /=0,1,2,--- do 
vec(A01) = vec(A,*V ot 9x5; 1) 这 里 A; = Elaja]], S; = El(Vs,9n)(VeGk)*] (Ar, Sı Ñ 
过 计算 片段 的 滚动 平均 值 所 得 )，a 是 第 1 层 的 输入 激活 向 量 ，si = Wian vec(-) Æe 
阵 变换 成 一 维 向 量 的 向 量化 变换 




































































































































































end for 
K-FAC 近似 自然 梯度 来 更 新 策略 : ii = Ok + Nk Abk 这 里 Nk = min (ns 4/ waa | * 
k 
Hi = = A e) Sı 

















采用 Gauss-Newton 二 阶梯 度 下 降 方法 〈 并 使 用 K-FAC 近似 ) 最 小 化 均 方 误差 来 学 习 价值 函 


A: Bk41 = arg ming Dir 3 ren, x (Vs (St) = Gi)” 
end for 

















B4 ”高 等 深度 强化 学 习 


B.4.1 模仿 学 习 





DAgger 


算法 B.71 DAgger 

初始 化 卫生 1 

初始 化 策略 e, 为 策略 集 II 中 任意 策略 

fori = 1,2,--- , N do 

Ti — Pin” + (1 — bi)îi 

用 mi 采样 几 个 工 步 的 轨迹 
得 到 由 zi; 访问 的 策略 和 专家 给 出 的 动作 组 成 的 数据 集 D; = {(s, 7*(s))} 
聚合 数据 集 : D- DUD; 
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TED 上 训练 策略 tia 
end for 


返回 策略 ty 











B.4.2 ”基于 模型 的 强化 学 习 
Dyna-Q 


算法 B.72 Dyna-Q 




















初始 化 Q(s,a) fll Model(s,a), 其 中 seS, acA 
while(true): 
(a) s — 当前 《〈 非 终止 ) 状态 
(b) a + e-greedy(s, Q) 
(c) 执行 决策 行为 a; 观测 奖励 7, 获得 下 一 个 状态 8 
(d) Q(s.a) — Q(s,a) +a [r + maxa Q(s'; a’) - Q(s.a)] 
(e) Model(s, a) < r, s' 
(f) € E n 次: 
s 《随机 历史 观测 状态 
a 生 在 状态 s 下 历史 随机 决策 行为 
r,s’ «— Model(s, a) 


Q(s,a) — Q(s,a) +a [r 二 Ymaxa’ Q(s’, a^) 一 Q(s, a)] 





























朴素 蒙特 卡 罗 搜 索 (Simple Monte Carlo Search) 
算法 B.73 朴素 蒙特 卡 罗 搜 索 








固定 模型 M 和 模拟 策略 x 
for 每 个 动作 we Ado 
for 每 个 片段 ke {1,2,--- , K} do 

















根据 模型 M 和 模拟 策略 r, 从 当前 状态 Sy 开始 在 环境 
记录 轨迹 {S+ a, RE, Shia. Afr» Reo, Gr Sh} 
计算 从 每 个 S, FARRE GF = TRE 

















end for " 
Q(5;, a) — x » Gt 
=]; 
end for 











返回 当前 最 大 Q 值 的 动作 A, = argmax,e 4 Q@(Si,a) 
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蒙特 卡 罗 树 搜索 (Monte Carlo Tree Search) 


算法 B.74 蒙特 卡 罗 树 搜索 

回 定 模型 人 4 

初始 化 模拟 策略 7 

for 每 个 动作 we A do 

for 每 个 片段 ke {1,2,---,K} do 

根据 模型 M 和 模拟 策略 x 从 当前 状态 S. 在 环境 中 展开 
记录 轨迹 {54,a, Revi, Sici Ati, Reo, Sr} 

IM (St, At)» Ap = a 开始 的 平均 回报 更 新 每 个 (5;, Ai) i= t, T H QE 

由 当前 的 Q 值 更 新 模拟 策略 x 


end for 



































A 




















H 























end for 


返回 当前 最 大 Q 值 的 动作 A, = arg maxaeA Q(S;, a) 








Dyna-2 


算法 B.75 Dyna-2 
function LEARNING 
PGA Fs 和 万 
0 —0 8 初始 化 长 期 存储 空间 中 网 络 参数 
loop 





s «— So 
0-0 # 初始 化 短期 存储 空间 中 网 络 参数 
z—0 8 初始 化 资格 迹 
SEARCH(s) 
a + t(s; Q) # 基 于 和 Q 相关 的 策略 选择 决策 动作 
while s 不 是 终结 状态 do 
执行 a, 观测 奖励 > 和 下 一 个 状态 s 
(Fs, Fr) € UpdateModel(s, a,r, s') 
SEARCH(s’) 
a’ — 1(s'; Q) # 选择 决策 动作 使 其 用 于 下 一 个 状态 s” 
ó € r -- Q(s', a^) — Q(s,a) # 计算 TD-error 
0 — 0+a(s,a)dz # 更 新 长 期 存储 空间 中 网 络 参数 
zedAzt+o # 更 新 资格 迹 


s+ s', a «— a 




























































































end while 
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end loop 


end function 















































function SEARCH(s) 
while 时 间 周 期 内 do 
zc—0 # 清除 短期 存储 的 资格 迹 
acz(sQ)  # 基 于 和 可 相关 的 策略 决定 决策 动作 
态 do 


while s 不 是 终结 状 ; 
a) 


s' — F,(s, 
r — F,(s,a) 


a’ + x(s'; Q) 


ó — R -- Q(s',a') - 


0 —— 0 4- a(s, a)óz 


Z=- Az4ó 
s&s, aad 
end while 
end while 


end function 





(s,a) 


f$ BRAS 


天 得 奖励 


# 计算 TD-error 











# 更 新 短期 存储 空间 ! 

















新 短 





期 存储 的 资格 迹 








B43 ”分 层 强 化 学 习 


战略 专注 作家 (STRategic Attentive Writer, STRAW) 


算法 B.76 STRAW 中 的 计划 更 新 








if ge = 1 then 


计算 动作 -计划 的 注意 力 参 数 WA = f (2i) 
应 用 专注 阅读 : Bt = read(A*!, WA) 



































计算 











[RIZR e, = h(concat(0,, z;)) 


计算 承诺 -计划 的 注意 力 参数 yf = fc(concat(yt ,ea)) 
更 新 At = o(A71) + write(f (et), yf) 
更 新 ct = Sigmoid(b + write(e, vf )) 


else 


更 新 At = p( ACC!) 





更 新 ct = p(cr—-1) 
end if 
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网 络 参 数 


w 
P 


高 等 深度 强化 学 习 





B44 多 智能 体 强化 学 习 
多 智能 体 Q-Learning (Multi-Agent Q-Learning ) 
算法 B.77 多 智能 体 一 般 性 Q-learning 
WE Q 表格 中 初始 值 Qi(s, aiai) = 1, Vie {1,2, ,m] 
for episode = 1 to M do 
设 定 初始 状态 s = So 
for step = 1 to T do 
每 个 智能 体 ; 基于 ri(s) 选择 决策 行为 a; , 其 行为 是 根据 当前 Q 中 所 有 
衡 决策 策略 
观测 经 验 (s, a; a-i ri S) 并 将 其 用 于 更 新 Qi 
更 新 状态 s = s' 


end for 









































re 
amp 
ov 


体 ; 


RU 
n> 
Nw 


内 什 均 









































end for 





多 智能 体 深度 确定 性 策略 梯度 (Multi-Agent Deep Deterministic Policy Gradient, MADDPG) 
算法 B.78 多 智能 体 深度 确定 性 策略 梯度 
for episode = 1 to M do 
设 定 初始 状态 s = So 
for step = 1 to T do 
每 个 智能 体 i 基于 当前 决策 策略 re, 选择 决策 行为 us 
同时 执行 所 有 智能 体 的 决策 行为 a = (a1,a2, ,am) 
 (s,a,7, s") 存在 回放 缓冲 区 M 
更 新 状态 = s 
for 智能 体 i= 1 to m do 
从 回访 缓冲 区 M 中 采样 批量 历史 经 验 数据 
对 于 行动 者 和 批判 者 网 络 ， 计 算 网 络 参数 梯度 并 根据 梯度 更 新 参数 


end for 














































































































end for 


end for 
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附录 B 算法 速 查 表 
B45 并行 计算 


异步 优势 Acto 


r-Critic (Asynchronous Advantage Actor-Critic, A3C) 


算法 B.79 异步 优势 Actor-Critic (Actor-Learner) 





超人 参数: 总 探索 步 数 Ts， 每 个 周期 内 最 多 探索 步 数 tax 
初始 化 步 数 上 = 1 

while T < Tnax do 

初始 化 网 络 参数 梯度 : dO — 0 和 db, = 0 

和 参数 服务 器 保持 同步 并 获得 网 络 参数 0 = 0 Fil 07, = 0, 


tstart = t 



































设 定 每 个 探索 周期 初始 状态 St 
while 达到 终结 状态 or t — tstart == tmax do 








基于 决策 策 











咯 7 (S;|0") 选择 决策 行为 a 














在 环境 中 采 
t=t+1,T 
end while 








=T +1. 


if 达到 终结 状态 then 





R=0 
else 
R=V(S,|6,,) 
end if 
fori =t—1,t—2,--- txat do 





HZ SUE 
积累 参数 梯 
end for 


基于 梯度 db f 





end while 


更 新 折扣 化 奖励 R= Ri 十 YR 


度 0',d9 = d0 + Vor log 7(S;|0’)(R — V(Si|0,)) 
BE 0,, db, = dd, + A(R — V (S:10,))?/30; 





dO, 异步 更 新 0 和 0, 








分 布 式 近 端 策略 优化 (Distributed Proximal Policy Optimization, DPPO) 


算法 B.80 DPPO (chief) 





超 参 数 : workers 数目 W, 可 获得 梯度 的 worker 数目 门限 值 D, 次 迭代 数目 
































输入 : 初始 全 局 策略 网 络 参 数 0, 初始 全 局 价值 网 络 参数 o 
for k = 0,1,2,--- do 
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for m € {1,--- 





, M) do 


SS AES 






























































B4 高 等 深度 强化 学 习 
等 待 至 少 可 获得 W 一 D 个 worker 计算 出 来 梯度 9， 去 梯度 的 均值 并 更 新 全 局 梯度 9 
end for 
for b € {1,...,B}do 
等 待 至 少 可 获得 W 一 D 个 worker 计算 出 来 梯度 p, KARRIEREN ERE ob 
end for 
end for 





算法 B.81 DPPO worker) 




















MEM: KL $55 £200 A, 自 适应 参数 
输入 : 初始 局 
for k = 0,1,2,--- do 
通过 在 环境 中 采用 策略 re WS 
计算 rewards-to-go G' 

基于 价值 函 
法 ) 
存储 部 分 轨迹 信 ， 
Told €— To 


for m € (1,- 
T At St) 
Jepo(8) = 51 1 TUS Âs — 


if KL[roal9] > 4K Liarget then 






































ay 




















ws De 


于 当前 


























E 


: , M) do 


局 部 策略 网 络 参 数 0, 初始 局 部 价值 


函数 Vo, 计算 对 advantage 的 估计 ，A〔 可 选择 使 用 


AKL [za [76] = 


a = 1.5,b = 2, VIERA M, B 
网 络 参数 o 

















探索 轨迹 Dj = {ri} 




















任何 一 种 advantage 估计 方 











€max(0, KL [Total 76] d 2K Longer)? 


break 并 继续 开始 上 十 1 WR 


end if 
计算 VoJppo 
发 送 梯度 数据 0 到 chief 




















等 待 梯度 被 接受 或 被 舍弃 ， 更 





end for 

for b € {1,...,B}do 
L(¢) = - Dyas (6: — Va (S9)? 
计算 VoL 
发 送 梯度 数据 o 到 chief 





折 网 络 参 数 











折 网 络 参 数 





等 待 梯度 被 接受 或 被 舍弃 ， 更 


end for 

计算 d= 

if d < dtarget/a then 
A<A/b 

















E [KL [moia(-|S¢), 0 (-1S¢)]] 
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else if d > dtarget x a then 
À«—Axb 
end if 
end for 





算法 B.82 DPPO (PPO-Clip worker) 
MSR: clip AT e, 次 迭代 数 日 M, B 
输入 : 初始 局 部 策略 网 络 参数 0, 初始 局 部 价值 网 络 参数 o 
for k = 0,1,2,--- do 
通过 在 环境 中 采用 策略 re 收集 探索 轨迹 Dj = (7i) 
计算 rewards-to-go G'; 
基于 当前 价值 函数 Va, 计算 对 advantage 的 估计 ， Ay 〈 可 选择 使 用 任何 一 种 advantage 估计 方 
法 
存储 部 分 轨迹 信息 
Told To 
for m € {1,--- , M} do 
通过 最 大 化 PPO-Clip 目标 更 新 策略 : 


T 7 Te(A4|S4) 4 n(A S A 
Jppo(8) = DAT 3 rep, 221-29 min | 一 一 一 AGERE ;1 一 1 十 9À) 








































































































计算 Vo Jppo 

发 送 梯度 数据 0 到 chief 

等 待 梯度 被 接受 或 被 舍弃 ， 更 新 网 络 参 数 
end for 


for b € {1,--- , B} do 

通过 回归 均 方 误差 拟 合 价值 方程 : ; 
L(6) = — php Xren, Vico (Vels) - Gr) 
计算 VoL 

发 送 梯度 数据 p 到 chief 

等 待 梯 度 被 接受 或 被 舍弃 ， 更 新 网 络 参数 


end for 

































































end for 





Ape-X 


算法 B.83 Ape-X (Actor) 
超 参 数 : 单 次 批量 发 送 到 回放 缓冲 区 的 数据 大 小 B, ERAH T 
与 学 习 者 同步 并 获得 最 新 的 网 络 参数 00 
从 环境 中 获得 初始 状态 So 
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for t= 0,1,2,---,7—1do 
基于 决策 策略 x(S4|04) 选择 决策 行为 A 
KA (Sp, Ar, Re, Seyi) 加 入 当地 缓冲 区 
if 当地 缓冲 区 存储 数据 达到 数目 门限 值 B then 
批量 获得 缓冲 数据 B 
计算 获得 缓冲 数据 的 优先 级 p 
将 批量 绥 冲 数据 和 其 更 新 的 优先 级 发 送 
end if 
周期 性 同步 并 更 新 最 新 的 网 络 参数 0 


end for 
























































H 








放 缓 冲 











区 












































算法 B.84 Ape-X (Learner) 











BER: 学 习 周 期 数目 了 

初始 化 网 络 参数 Oo 
for t = 1,2,3,--- , T do 

从 回放 缓冲 区 中 批量 采样 带 有 优先 级 的 数据 (i, d) 
通过 批 数 据 进 行 模型 训练 
新 网 络 参数 0, 
于 批 数据 计算 优先 级 p 
新 回放 缓冲 区 中 索引 i 数据 的 优先 级 p 
期 性 地 从 回放 缓冲 区 中 删除 低 优 先 级 的 数据 


end for 












































| 






























































ag dox 
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中 文 英文 缩写 
机 器 学 习 基 础 

人 工 智 能 Artificial Intelligence AI 

机 器 学 习 Machine Learning ML 

深度 学 校 Deep Learning DL 

多 层 感 知 器 Multilayer Perceptron MLP 

深度 神经 网 络 Deep Neural Networks DNN 

卷 积 神经 网 络 Convolutional Neural Network CNN 

循环 神经 网 络 Recurrent Neural Network RNN 

人 工 神 经 网 络 Artificial Neural Network ANN 

长 短期 记忆 Long Short-Term Memory LSTM 

单元 Cell 

偏差 Bias 

隐藏 状态 Hidden State 

单元 状态 Cell State 

隐藏 层 Hidden Layer 

批 大 小 Batch Size 

小 批量 Mini-Batch 

整流 线性 单元 Rectified Linear Unit ReLU 








476 











WRC 中 英文 对 照 表 


























































































































































































































中 文 英文 缩写 
指数 线性 单元 Exponential Linear Unit ELU 
梯度 下 降 Gradient Descent 
随机 梯度 下 降 Stochastic Gradient Descent SGD 
输出 层 Output Layer 
权重 Weight 
引 理 Lemma 
步 长 Step Size 
步 幅 Stride 
超 参 数 Hyperparameter 
输入 Input 
输出 Output 
初始 化 Initialize/Initialization 
更 新 Update 
协 方差 Covariance 
交叉 验证 Cross-Validation 
过 度 拟 合 Overfitting 
RWE Underfitting 
权重 衰减 Weight Decay 
集成 学 习 Ensemble Learning 
动 编码 器 Autoencoder AE 
变 分 自动 编码 器 Variational Autoencoder VAE 
生成 对 抗 网 络 Generative Adversarial Networks GANS 
全 连接 Fully-Connected FC 
密集 层 ， 亦 称 全 连接 层 Dense Layer 
朴素 贝 叶 斯 Naive Bayes 
线性 回归 Linear Regression 
折 页 损失 函数 Hinge Loss 
KL 散 度 Kullback-Leibler Divergence KL Divergence 
多 类 别 Multinomial 
独 热 码 One-Hot 
学 习 率 Learning Rate 
前 向 传播 Forward Propagation 
反 癌 传播 Backward Propagation 
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中 文 英文 缩写 
批 标准 化 Batch Normalization 
分 对 数 Logit 
对 数 概 率 Log Probability 
线段 树 Segment Tree 
张 量 Tensor 
早 停 法 Early Stopping 
数据 增强 Data Augmentation 
强化 学 习 基础 

KAS State 

RASS State Set 
动作 Action 
动作 集合 Action Set 
观测 Observation 
轨迹 Trajectory 
智能 体 Agent 
奖励 Reward 
环境 Environment 
回报 Return 
转移 Transition 
长 期 回报 Long-Ierm Return 
短期 回报 Short-Term Return 
探索 -利用 的 权衡 Exploration-Exploitation Trade-Off 
确定 性 转移 过 程 Deterministic Transition Process 
随机 性 转移 过 程 Stochastic Transition Process 
TAS HE AS FE BE State Transition Matrix 
基准 Baseline 
部 分 可 观测 的 Partially Observable 
完全 可 观测 的 Fully Observable 
立即 奖励 Immediate Reward 
累积 奖励 Cumulative Reward 
非 折 扣 化 的 回报 Undiscounted Return 
折扣 化 回报 Discounted Return 
期 望 回报 Expected Return 
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中 文 英文 缩写 
起 始 状态 分 布 Start-State Distribution 
{TF Actor 
TIE Critic 
基于 模型 的 Model-Based 
无 模型 的 Model-Free 
基于 价值 的 Value-Based 
基于 策略 的 Policy-Based 
玩 定 策略 On-Policy 
新 定 策略 Off-Policy 
在 线 策略 On-Policy 
离线 策略 Off-Policy 
规划 Planning 
试 错过 程 Trial-and-Error Process 
省 法 Introspection 

时 间 差 分 Temporal Difference TD 
正 向 运动 学 Forward Kimematics 

反 向 运动 学 Inverse Kinematics 

马尔 可 夫 Markov 

马尔 可 夫 链 Markov Chain 

马尔 可 夫 性 质 Markov Property 

时 间 同 质 性 Time-Homogeneous 

时 间 不 同 质 Time-Inhomogeneous 
折扣 因子 Discount Factor 
赌博 机 Bandit 
单 臂 赌博 机 Single-Armed Bandit 
多 臂 赌 博 机 Multi-Armed Bandit MAB 
SES GF Oblivious Adversary 
非 健 忘 对 抗 者 Non-Oblivious Adversary 
全 信息 博弈 Full-Information Game 
部 分 信息 博弈 Partial-Information Game 
概率 图 模型 Probabilistic Graphical Model 
观察 变量 Observed Variable 
蒙特 卡 罗 Monte Carlo MC 
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中 文 RM 缩写 
首次 蒙特 卡 First-Visit Monte Carlo 

每 次 蒙特 卡 罗 Every-Visit Monte Carlo 

动态 规划 Dynamic Programming DP 
逆 和 矩阵 方法 Inverse Matrix Method 

探索 和 利用 Exploration and Exploitation 

回放 缓存 Replay Buffer 

自 举 Bootstrap 

穷 举 法 Exhaustive Method 

非 终 结 Non-Terminal 

强化 学 习 Reinforcement Learning RL 
高 等 强化 学 习 Advanced Reinforcement Learning 

深度 强化 学 习 Deep Reinforcement Learning DRL 
回合 /片段 Episode 

回溯 Backup 

AH Wot Collapse 

截断 Clipped 

贝尔 曼 方程 Bellman Equation 

贝尔 曼 期 望 方 程 Bellman Expectation Equation 

贝尔 曼 最 优 方 程 Bellman Optimality Equation 

DUAR S i p pe i Er Bellman Optimality Backup Operator 

批量 Batch 

函数 拟 合 器 Function Approximator 

马尔 可 夫 过 程 Markov Process MP 
马尔 可 夫 奖 励 过 程 Markov Reward Process MRP 
奖励 函数 Reward Function 

奖励 折扣 因子 Reward Discount Factor 

马尔 可 夫 决 策 过 程 Markov Decision Process MDP 






























































有 限 范围 马尔 可 夫 决 策 过 程 | Finite-Horizon Markov Decision Process 
部 分 可 观测 的 马尔 可 夫 决 策 | Partially Observed Markov Decision Process | POMDP 
贪心 策略 Greedy Policy 
ec- 贪心 c-Greedy 
r THE Regret 
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中 文 英文 缩写 
置信 上 界 Upper Confidence Bound UCB 
树 置信 上 界 Upper Confidence Bound in Tree UCT 
雅 达 利 游戏 Atari Game 

价值 函数 Value Function 

Q 值 函数 Q-Value Function 

动作 价值 函数 Action-Value Function 

在 线 价 值 函数 On-Policy Value Function 

最 优 价值 函数 Optimal Value Function 

在 线 动 作价 值 函数 On-Policy Action-Value Function 

最 优 动 作价 值 函数 Optimal Action-Value Function 

查找 表 Lookup Table 

多 项 式 族 Polynomial Family 

多 项 式 基 Polynomial Basis 

傅立叶 基 Fourier Basis 

傅立叶 变换 Fourier Transformation 

粗略 编码 Coarse Coding 

瓦 式 编码 Tile Coding 

感知 域 Receptive Field 

径 向 基 函 数 Radial Basis Function RBF 
决策 树 Decision Tree 

Igi? Nearest Neighbor 

半 梯 度 Semi-Gradient 

死亡 三 件 套 the Deadly Triad 

过 估计 Over-Estimation/Over-Estimate 

欠 估 计 Under-Estimation/Under-Estimate 

均 方 误差 Mean Squared Error MSE 
平均 绝对 误差 Mean Absolute Error MAE 
策略 梯度 Policy Gradient PG 
确定 性 策略 Deterministic Policy 

随机 性 策略 分 布 Stochastic Policy Distribution 

确定 性 策略 梯度 Deterministic Policy Gradient DPG 
随机 性 策略 梯度 Stochastic Policy Gradient SPG 
条 件 概率 分 布 Conditional Probability Distribution 
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中 文 英文 缩写 
初版 策略 梯度 Vanilla Policy Gradient VPG 
参数 化 策略 Parameterized Policy 
伯 努 利 分 布 Bernoulli Distribution 
类 别 分 布 Categorical Distribution 
对 角 高 斯 分 布 Diagonal Gaussian Distribution 
二 值 化 动作 策略 Binary-Action Policy 
类 别 型 策略 Categorical Policy 
逐个 元 素 的 乘积 Element-Wise Product 
联 贝尔 分 布 Gumbel Distribution 
耿 贝 尔 -Softmax 函数 Gumbel-Softmax 
联 贝尔 -最 大 化 函数 Gumbel-Max 
不 可 微 的 Non-Differentiable 
逆 变 换 Inverse Transform 
对 角 高 斯 策略 Diagonal Gaussian Policy 
累计 折扣 奖励 Cumulative Discounted Reward 
折扣 状态 分 布 Discounted State Distribution 
转移 概率 Transition Distribution 
对 数 - 导 数 技巧 Log-Derivative Trick 
对 数 Logarithm 
将 得 到 的 奖励 Reward-to-Go 
偏 微分 Partial Derivative 
贯穿 时 间 的 反 向 传播 Backpropagation Through Time BPTT 
莱 布 尼 茨 积分 法 则 Leibniz Integral Rule 
富 比 尼 定 理 Fubini’s Theorem 
只 测度 Product Measure 
可 测 函 数 Measurable Function 
紧 致 性 Compactness 
被 积 函数 Integrand 
行为 策略 Behaviour Policy 
约 等 于 Approximately Equivalent 








Regular delta-Approximation 














AW BR 


Lipschitz 








目标 网 络 
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Target Network 
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中 文 英文 缩写 
得 分 函数 Score Function 
路 径 导 数 Pathwise Derivative 
再 参数 化 Reparametrization 
随机 价值 梯度 Stochastic Value Gradient SVG 
协 方 差 矩 阵 自 适 应 Covariance Matrix Adaptation CMA 
协 方 差 矩 阵 自 适 应 进化 策略 Covariance Matrix Adaptation Evolution CMA-ES 
Strategy 
ME Ly Hill Climbing 
选择 比率 Selection Ratio 
A PR CIT UA Compatible Function Approximation 
优势 函数 Advantage Function 
中 央 处 理 器 Central Processing Unit CPU 
KDE NT a Graphics Processing Unit GPU 
样本 效率 Sample Efficiency 
高 样本 效率 的 Sample-Efficient 
灾难 性 遗忘 Catastrophic Interference/Forgetting 
元 学 习 Meta-Learning 
表征 学 习 Representation Learning 
多 智能 体 强化 学 习 Multi-Agent Reinforcement Learning MARL 
模拟 到 现实 Simulation-to-Reality Sim2Real, 
Sim-to-Real 
言 赖 域 Trust Region 
JE BH RE Conjugate Gradient 
自然 梯度 Nature Gradient 
变 分 推断 Variational Inference VI 
专家 示范 Expert Demonstrations 
模仿 学 习 Imitation Learning IL 
AE SI Cross Entropy CE 
分 层 强化 学 习 Hierarchical Reinforcement Learning HRL 
封建 制 强化 学 习 Feudal Reinforcement Learning 
无 行动 者 Actor-Free 
逆向 强化 学 习 Inverse Reinforcement Learning IRL 
行为 克隆 Behavioral Cloning BC 
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中 文 RM 缩写 
学 徒 学 习 Apprenticeship Learning 
从 观察 量 进行 模仿 学 习 Imitation Learning from Observations IfO/ILFO 
高 斯 混合 模型 回归 Gaussian Mixture (Model) Regression GMR 
高 斯 过 程 回 归 Gaussian Process Regression 
A) RC Causal Entropy 
协 变量 漂移 Covariate Shift 
合 误差 Compounding Errors 
数据 集聚 合 Dataset Aggregation DAgger 
无 悔 的 No-Regret 
动态 运动 基 元 Dynamic Movement Primitives DMP 
单 样本 的 One-Shot 
BARDA p] SRA 2] Maximum Entropy Inverse Reinforcement MaxEnt IRL 
Learning 
奖励 塑 形 Reward Shaping 
生成 对 抗 模 仿 学 习 Generative Adversarial Imitation Learning GAIL 
辨别 器 Discriminator 
多 模 态 的 Multi-Modal 
引导 性 代价 学 习 Guided Cost Learning GCL 
生成 对 抗 网 络 指导 性 代价 学 ”| Generative Adversarial Network Guided GAN-GCL 
习 Cost Learning 
极 大 似 然 估 计 Maximum Likelihood Estimation MLE 
以 轨迹 为 中 心 的 Trajectory-Centric 
以 状态 为 中 心 的 State-Centric 
玻 尔 效 曼 分 布 Boltzmann Distribution 
配 分 函数 Partition Function 
重要 性 采样 Importance Sampling 
对 抗 性 逆向 强化 学 习 Adversarial Inverse Reinforcement Learning | AIRL 
互信 息 Mutual Information 
时 间 步 Time Step 
逆向 动态 模型 Inverse Dynamics Models 
正 向 动态 模型 Forward Dynamics Models 
贝 叶 斯 优化 Bayesian Optimization BO 
从 观察 量 模仿 潜在 策略 Imitating Latent Policies from Observation ILPO 
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中 文 英文 缩写 
选项 框架 Options Framework 
本 体感 觉 Proprioceptive 
线性 二 次 型 调节 器 Linear Quadratic Regulator LQR 
极 小 化 极 大 Minimax 
从 观察 量 进 行 行为 克隆 Behavioral Cloning from Observation BCO 
正 向 对 抗 式 模仿 学 习 Forward Adversarial Imitation Learning FAIL 
动作 指导 性 对 抗 式 模仿 学 习 ”| Action-Guided Adversarial Imitation AGAIL 
Learning 

增强 逆向 动态 建 模 Reinforced Inverse Dynamics Modeling RIDM 
奖励 函数 工程 Reward Engineering 
欧 氏 距离 Euclidean Distance 
时 间 对 比 网 络 Time-Contrastive Networks TCN 

Le AN VE AC Embodiment Mismatch 
概率 性 运动 基 元 Probabilistic Movement Primitives ProMP 
核 运动 基 元 Kernelized Movement Primitives KMP 
高 斯 过 程 回归 Gaussian Process Regression GPR 
高 斯 混合 模型 Gaussian Mixture Model GMM 
策略 替换 Policy Replacement 
残 差 策略 学 习 Residual Policy Learning 
基于 示范 的 深度 Q-learning Deep Q-learning from Demonstrations DQfD 
基于 示范 的 深度 确定 性 策略 | Deep Deterministic Policy Gradient from DDPGfD 
梯度 Demonstrations 
标准 化 Actor-Critic Normalized Actor-Critic NAC 
最 先进 的 State-of-the-Art SOTA 
用 示范 数据 进行 奖励 塑 形 Reward Shaping with Demonstrations 
对 比 正 向 动态 Contrastive Forward Dynamics CFD 
内 在 奖励 JIntrinsic Reward 
封建 制 网 络 Feudal Network FuN 
基于 族群 的 训练 Population-Based Training PBT 
通用 性 Generality 
多 面 性 Versatility 
与 模型 无 关 的 元 学 习 Model-Agnostic Meta-Learning 
学 会 学 习 Learning to Learn 
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中 文 RM 缩写 
内 循环 Inner-Loop 

外 循环 Outer-Loop 

元 学 习 者 Meta-Learner 

度量 学 习 Metric Learning 

元 强化 学 习 Meta-Reinforcement Learning 

小 样本 学 习 Few-Shot Learning 

状态 表征 学 习 State Representation Learning SRL 
HID at Descriptor 

博弈 论 Game Theory 

AREA Self-Play SP 

优先 虚拟 自我 博弈 Prioritized Fictitious Self-Play PFSP 

指导 性 策略 搜 搜 Guided Policy Search GPS 
比例 -积分 -微分 Proportional-Integral-Derivative PID 

现实 鸿沟 Reality Gap 

系统 识别 System Identification SI 

泛 化 力 模型 Generalized Force Model GFM 

零 样本 Zero-Shot 

域 自 适应 Domain Adaption DA 

渐进 网 络 Progressive Networks 

动力 学 随机 化 Dynamics Randomization DR 
随机 到 标准 自 适应 网 络 Randomized-to-Canonical Adaptation RCANs 

Networks 

可 扩展 性 Scalability 

重要 性 加 权 的 行动 者 -学 习 者 | Importance Weighted Actor-Learner IMPALA 
结构 Architecture 

可 扩展 高 效 深度 强化 学 习 Scalable, Efficient Deep-RL SEED 
社交 树 Social Tree 

多 步 学 习 Multi-Step Learning 

噪声 网 络 Noisy Nets 

值 分 布 强化 学 习 Distributional Reinforcement Learning 

分 布 式 贝尔 曼 算 子 Distributional Bellman Operator 

自 适应 的 Adaptive 

层 标准 化 Layer Normalization 
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中 文 英文 缩写 
FIER Sub-Iteration 
分 块 对 角 和 矩阵 Block Diagonal Matrix 
无 穷 范式 co-Norm 
L2 范式 L2-Norm 
模拟 Simulation 
评估 /估计 Evaluate 
策略 迭代 Policy Iteration 
策略 评估 Policy Evaluation 
策略 提升 Policy Improvement 
泛 化 策略 迭代 Generalized Policy Iteration GPI 
柔性 策略 迭代 Soft Policy Iteration 
价值 迭代 Value Iteration 
最 优 性 原则 Principle of Optimality 
优先 扫描 Prioritized Sweeping 
梯度 赌博 机 Gradient Bandit 
直接 策略 搜索 Direct Policy Search 
资格 迹 Eligibility Trace 
延迟 帧 Lazy-Frame 
选项 策略 Policy-over-Action 
选项 内 置 策略 Intra-Option Policy 
时 域 抽象 Temporal Abstraction 
专注 写作 Attentive Writing 
选项 内 置 策略 梯度 理论 Intra-Option Policy Gradient Theorem 
奖励 隐藏 Reward Hiding 
E A Sei Information Hiding 
PE PRA RR BUE Semi-Markov Decision Process SMDP 
转移 策略 梯度 Transition Policy Gradients 
重 标记 Re-Label 
原始 值 函 数 Proto-Value Functions PVFs 
后 见 之 明 目 标 转移 Hindsight Goal Transitions 
终生 学 习 Lifelong Learning 
- Ornstein-Uhlenbeck OU 
斯 塔 充 尔 伯 格 博弈 Stackelberg Game 
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中 文 RM 缩写 
先 发 优 势 First-Mover Advantage 
演算 Roll-Out 
消息 传递 接口 Message Passing Interfaces MPI 
进程 间 通 信 Inter-Process Communication IPC 
预测 者 Predictor 
训练 者 Trainer 
强化 学 习 算 法 
探索 和 利用 的 指数 加 权 算 法 | Exponential-Weight Algorithm for Exp3 
Exploration and Exploitation 

单 步 Q-learning One-Step Q-learning 
多 步 Q-learning Multi-Steps Q-learning 
深度 Q 网 络 Deep Q-Networks DQN 
一 Categorical 51 C51 
深度 确定 性 策略 梯度 Deep Deterministic Policy Gradient DDPG 
优先 经 验 回放 Prioritized Experience Replay PER 
后 见 之 明 经 验 回放 Hindsight Experience Replay HER 
信赖 域 策略 优化 Trust Region Policy Optimization TRPO 
近 端 策略 优化 Proximal Policy Optimization PPO 
分 布 式 近 端 策略 优化 Distributed Proximal Policy Optimizaion DPPO 
一 Actor-Critic AC 
归 一 化 Actor-Critic Normalized Actor-Critic NAC 
使 用 Kronecker 因子 化 信赖 Actor Critic Using Kronecker-Factored Trust | ACKTR 
域 的 Actor Critic Region 

(同步 ) 优势 Actor-Critic Synchronous Advantage Actor-Critic A2C 
异步 优势 Actor-Critic Asynchronous Advantage Actor-Critic A3C 
最 大 化 后 验 策略 梯度 Maximum a Posteriori Policy Optimization MPO 
期 望 最 大 化 算法 Expectation Maximization EM 
ME QUIEN Fitted Q Iteration 
TERR QZR Online Q Iteration 
分 位 数 QT-Opt Quantile QT-Opt Q2-Opt 
有 基准 的 REINFORCE REINFORCE with Baseline 
挛 生 延迟 DDPG Twin Delayed DDPG TD3 
柔性 Actor-Critic Soft Actor-Critic SAC 
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中 文 英文 缩写 

变 分 信息 量 最 大 化 探索 Variational Information Maximizing VIME 
Exploration 

朴素 蒙特 卡 罗 搜 索 Simple Monte Carlo Search 

蒙特 卡 罗 树 搜索 Monte Carlo Tree Search MCTS 

多 智能 体 Q-learning Multi-Agent Q-learning 

多 智能 体 深度 确定 性 策略 梯 | Multi-Agent Deep Deterministic Policy MADDPG 

度 Gradient 

截断 Double-Q Learning Clipped Double-Q learning 

分 布 式 深度 循环 回放 DQN Recurrent Replay Distributed DQN R2D2 

可 调 - 行 动 者 Retrace-Actor 

分 位 数 回归 DQN Quantile Regression DQN QR-DQN 

战略 专注 作家 Strategic Attentive Writer STRAW 

选项 批判 Option-Critic 

MAXQ 分 解 MAXQ Decomposition 

层次 抽象 机 Hierarchical Abstract Machines HAMs 

使 用 离线 策略 修正 的 分 层 强 Hierarchical Reinforcement Learning with HIRO 

化 学 习 Off-Policy Correction 

细 粒 度 动作 重复 Fine Grained Action Repetition FiGAR 

通用 价值 函数 逼近 器 Universal Value Function Approximators UVFAs 

GPU/CPU 混合 式 异 步 优 势 Hybrid GPU/CPU Asynchronous Advantage | GA3C 


Actor-Critic 


Actor-Critic 
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版 行为 ,本社 将 奖励 举报 有 功 人 员 ,， 并 保证 举报 人 的 信息 不 被 泄露 。 
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